y(et) a(nother) diwographics

©1998-2023 @suushinagai with insatiable curiosity and open-mindedness for explorations of the unknown in mid/post-corona era

文献整理2022 season 5 (6) PubMed書誌データをfetchする

 今回は、BibDesk関連の話題はお休みである。
 PubMedでブロードな検索をして年あたりのヒット論文数が10,000件を超えると、取りこぼしなくダウンロードできるスマートな方法がなくなる。過去10年間分で数十万件ヒットする文献のabstractから、マイニングしてみたいものがあるのだが…。
 ため息をつきながら検索するうちに、【R言語と学術論文】PubMed API「RISmed」と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件を拝見し、RのRISmedパッケージに、クエリ文字列をセットしておくと、PubMed APIの門を叩いて検索結果を持ち返ってくれる関数が用意されていることを知った。
 20✕500通りの組み合わせのクエリで、サーバーに負担のかからないように巡回して、新着文献の検索結果をチェックするのが定年後の生活になったりするとどうだろうと想像していたら、開いた途端に最新情報が表示される魔法のノートはすでにJupyter Notebookで実現されていそうである。まず定年までにこれでひとつ仕上げてしまえるかもしれない。
nbviewer.org
 なお、PubMed APIを使ってfetchしたデータに、abstractに加えて参考文献のPMIDまで含まれることに驚愕してしまった。これを使い倒して引用論文をどんどん遡って引用研究のネットワークを再構築してはじめて、一つの分野の歴史的な概観を得られるのかと思うがどうだろうか。あるいは、今まさにこれまでに関連のなかった領野へと、展開し始めているトレンドが観察できるようになるだろう。
www.ncbi.nlm.nih.gov