y(et) a(nother) diwographics

©1998-2020 @suushinagai with enthusiastic curiosity and open-mindedness for intellectual adventures in mid/post-corona era

朝ドラ《エール》終了

 前の東京オリンピックの開会式を、麻疹で幼稚園を休んでいた筆者は自宅の白黒TVで観ていた。入場行進のマーチにはまさに魅了され、EPレコードを何度も何度も聴いた。
 
 2020年春夏シーズンの朝ドラのモデルはこのマーチの作曲者古関裕而氏であった。TOKYO 2020終了まで半年、毎朝エールを届ける予定だったはずである。
 ところが、パンデミックの影響でオリンピックは延期され、共演者志村けん氏のご逝去もあった。収録も途中でストップし、6月29日からは初回にもどって再放送という異例の展開となった。
 その後どうなるのかと思っていたが、9月11日に再開して通常より2か月延長して木曜日に最終回を迎え、本日は出演者がミュージカル俳優でかためられていたという種明かしの古山祐一メドレーであった。エールの世界観で構成されたフルコーラスの古関裕而音楽会で1時間半番組が作れそうである。
 コロナ禍、Stay homeや緊急事態宣言といった未曾有の状況で、戦争と平和について考えさせられる展開もあったし、冥土から帰ってくるようなスピンオフストーリーもあったが、筆者にとって印象深かったのは火山の噴火から始まってフラッシュモブ、東京オリンピック開会式まで盛り込まれた初回とわろてんかにも出ていた鶴田さんの演じた志津に主人公とともに日本中が魅了された回(4月16日、第14回放送分)であった。

62回目の誕生日が近づいてきて

 今日中にゲラを一つ返して、メール会議の資料と協議案を委員に回さないといけないのを気にしながら、本店営業部でのクライアント対応の合間にメールをさばいていて、よくできたフィッシングメールにほぼ完璧にかつがれてしまった。
 ただし、偽サイトのリンクを踏まずに、社内のシスオペに対処依頼のコメントをつけてフォワードしたので実質の被害なしにすんだ。が、こういうことも見破れなくなるとそろそろ危ない。
 web scrapingは、BeautifulSoupを首尾よくインストールしたものの、検索して出てくるどのページにもある
from bs4 import BeautifulSoupのbs4がわからんと言われる。
 ある程度の先達はあらまほしきものである。5のつく日のうちなら少しお安く買えるというメールにそそのかされ、送料無料にするためにテキストマイニング/深層学習本を大人買いしてしまった。

コーパスとテキストマイニング

コーパスとテキストマイニング

  • 発売日: 2012/12/08
  • メディア: 単行本
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

  • 作者:斎藤 康毅
  • 発売日: 2016/09/24
  • メディア: 単行本(ソフトカバー)
 段々新型Macbook Pro一台よりも、旧式MBA2枚で分散処理するほうがいい仕事をしそうに思えてきている。これらを活かしていくのに心配なのはメモリでもGPUのコア数でもなくSSDの容量とACアダプターのケーブル接合部分の被覆の割れである。筆者のは2枚とも本体と結合するマグネットコネクタに接合するところが裂け始めている。
 互換MagSafe電源ではGaN素子を用いた小さい筐体のものを買って、接合部は裂け始めたら取り替えられるようにケーブルで管理しておくのが好ましく思われてきた。

文献整理2020(9) 論文のフルテキストをscrapingするには

 nysolがインストールできたことで気が大きくなって、論文の(アブストラクトだけではなく)全文をdeep learningしてみたい(させてあげたい?)と思うようになった。それも1編や2編なら自分で読むほうが早い(と一応見えを張ってみる)けれど、今抱えている15,000編をざっくりいくつかのグループに分けたりできるとあとの展開に有利であると考えるようになった。
 もともとPubMedでヒットしたPMIDをダウンロードしてZOTEROに食わせたら、次々とPubMedを引いて登録してくれて、さらにPDFが公開されている論文については自動的にダウンロードして、それぞれ固有のフォルダに格納してくれるのである。PDFと一緒に論文のフルテキストが掲載されているページをダウンロードする設定にできないか、かなり時間をかけて探してみたが、そういう設定にはできないようである。
 それでは、フォルダの中を確認してPDFがあるのにテキストファイルがないなら、PDFからテキストをエクスポートしていければよいと気がついた。しかしcitekeyとの関連をどう保つかが難しい。
 そこで、ZOTERO開発者の方にお願いしたいのは、書誌データやHTMLファイルを保存するフォルダ名をcitekeyにしてほしい(ユニークな名前という点ではPMIDでも可)ということと、それぞれの参考文献やsupplemental dataを自動ダウンロードする設定かアドオンをなんとかして入れてもらえないだろうかということである。そのままインプリメントするとDoS攻撃ソフトになってしまうから、10秒に1リクエストしかしないというような制限をかけるべきなのであろう。
 と考えるうちに、いっそこの際ZOTEROはひとまずおいて、汎用scrapingソフトウェアの応用問題として、論文の全文公開ページをweb scrapingしていく戦略の方が楽かもしれないと考えるようになった。
 
www.crummy.com

qiita.com

文献整理2020(8) nysolのインストール

 22日の雨の宵に、nysolをmacOS Big Sur (11.1 Beta)のMBA (mid 2015)にインストールする。ネットで検索すると情報はいろいろと見つかるが、nysolのソフトウェア一覧リストにしたがって順にインストールしていく。
 beta版のOSにはついていけないかも、とbrewコマンドに警告を出されたりしながらも、MCMDはうまく醸造できた。ところが次からがうまくいかない。一晩がかりでxcode 12.3betaをダウンロード・インストールしてうまくいくようになったものもあった。また、fumiについてはあらかじめ形態素解析システムJUMAN、構文解析システムKNPを 別途インストールしておく必要があるのが、上記ソフトウェア一覧リストのインストール手順からは少し読み取りにくくておろおろしてしまったが、それぞれbrew install jumanppでjuman++ 1.02(JUMAN後継版)、brew tap uetchy/nlp; brew install knpでknp 4.19をインストールしておいてgem install nysol-fumiで入った。
 それで、早くdeep learningを試してみたいのであるが、JUMAN(形態素解析システム)は半角スペースが入っているとだめらしいとの情報もあって、残念なことに筆者の手持ちの文献はすべて英文で(半角スペースを使った分かち書きだらけで)あるので、この部分は英文用の形態素解析システムを用意しなければならないと考え、Tree-taggerをインストール。
 文献索引集の15,000編の文献書誌情報を収録した39.3 MBのBibTeXソースファイルを通してみたら、数分で658万語の形態素解析をこなすことがわかった。もう少しノイズを減らして(というようなことを考えてもとても手をつけることができないくらい巨大なデータを相手に意味のある結果が出せるように進化してきているのであろうが)deep learningに持っていけば文献をいくつかのグループに分けていけるに違いない。そちらも面白いが、redbiomと関連付け、特徴的なシーケンスをもとに深層を浚うことに興味がもりもりわいてきている。

CEOが柳川でせいろ蒸しを食べたいというので

 新型コロナの感染拡大が心配な三連休の二日目、予約して市内の有名店にCEOと出かける。いつも家族のために尽くしてくれるCEOに、ささやかな女房孝行なり。
 柳川セットでせいろ蒸しを堪能した後、旅券の不要な西海岸(横浜店)に渡航して古着のショッピング三昧。
 三密にならずに帰宅。

f:id:suushinagai:20201122191709j:plain

文献整理2020 (7) ZOTEROのbetter BibTeXから抽出したキーワードでmy Index Medicusをつくるその3

 参考文献15,000のキーワードリストを作成するというのはあまりにも規模が大きすぎて、筆者の環境では1回LaTeXを通すのがオーバーナイトで終わらない。
 そこで、「機械学習」を追加クエリにしてヒットする401編の部分集合で指慣らしにとりかかる。
 ZOTEROからエクスポートしたbetter BibLaTeXファイルをもとに、キーワードの出現頻度を調べ、キーワードを挙げている文献のcitekeyのリストを作り、タイトルと抄録を並べたパートのあとに文献リストが続くという編集方針は変えないで進めるが、さすがに400程度ならどんどん進められてデバグも早い。
 著者のあげたキーワードを出現頻度順に並べる際には、表記のゆらぎを考えて異口同音のものをまとめる必要がある。また、もともとの検索のクエリにしたようなものはほとんどの文献で出現するが、これは筆者の狙いであるdata miningの目的にはあまり意味がない。その一方で、たった1回しか出現しなくても重要な概念を現す一語に巡り合ったりもするので、著者の押すキーワードのクロスリファレンスリストを作るのであるが、これは要約や(著者がオープンにしている場合には)論文全文から機械学習で選別する際にする測度で見つけられそうである。というのはこの間読んだinterface誌2017年6月号の足立悠:AI…Pythonだけじゃないもう1つの定番データ解析「R」入門の受け売りであって、今後の研究次第ということである。
 締めにテキストエディタで索引語を探してその後ろに\index{索引語}コマンドを打って、索引リストを作る。upLaTeX→Biber→upLaTeX→upLaTeX→upmendex→upLaTeXを通してあっという間に150ページの索引集ができる。
 しかし、できあがったmy index medicusの使い勝手は期待ほどはかばかしいものではない。
 なぜ使えないのか半日考えてみて、文献を読むときにたどっていく、参考文献のリンク(のネットワーク)がないことに気がついた。また、例えばredbiomのようなソフトウェアで別のデータベースからリトリーブされる関連データへのリンクがないことも気になる。しかしこれらはもともとindex medicusにもなかったもののはずである。

Interface(インターフェース) 2017年 06 月号

Interface(インターフェース) 2017年 06 月号

  • 発売日: 2017/04/25
  • メディア: 雑誌

定期受診日

 午前中に検査を終わらせて早めのランチをすませて、待合フロアでたまたま見かけた学園通信70号を拝読。
 いろいろと大変なお役目をお引き受けくださっていることは存じていたつもりであるが、コロナ禍での社会貢献の記事を集めると広報誌一冊分になるという、その厚みにはあらためて脱帽せざるをえない。

リチウム電池 ジークス天神 雪の正月

 以前ホームリファービッシュしたが、現行機の導入にともなってお蔵入りしていたobsolete Macbook Air(late 2010)にmacOSをインストールし直すことにした。iPad Proをサイドカーに仕立てられるように新型Macbook Proを導入するのもよいのだが、MBAを二枚並べたら同じくらいの画面面積になるではないか(という問題だけでもないが)。
 ところが、思い出せる限りのパスワードがことごとく通らず、リカバリーモードでWiFiに接続してネットワークインストールで切り抜けようとするのだが、途中で「認証エラー」が出て頓挫してしまう。
 それならと、Big Surの現行機でビンテージバージョンのmacOSイメージファイルをダウンロードしてUSBフラッシュにインストールディスクを作ろうとするが、ダウングレードしていると勘ぐられて阻止されてしまう。
 まん中の子に謎かけしたところ、しばらくiPhoneで検索などして「システムクロックが狂っているのでは?」という。確かめるに然り。4年近く通電してなかったのである。ターミナルを開いて時刻合わせをして、無事macOS Sierraのネットワークインストールを完了した。
 そういえば昔のMacもリチウム電池が切れたら起動しなかった。そして正月明けの大雪の日にジークス天神でリチウム電池を買って帰った日のことを思い出した。
 今から考えると、システムクロックを戻したらパスワードが通るようになったりしたのだろうか。

Francesco Messina(1900.12.15-1995.9.13)《Beatrice》をめぐる旅(wishlist)

 Evernoteで調べものをしていて、ふとBeatrice像に呼びとめられた。
 新谷琇紀、桑原巨守作品を彷彿とさせるものを感じる(が、特に根拠があるわけではない)。現在感染拡大で大変ともうかがうミラノの古い教会を改築したという素晴らしいFrancesco Messina Museumをweb訪問する。果たして実際に訪れる日は来るだろうか。

Francesco Messina: Miti E Stagioni Del Novecento

Francesco Messina: Miti E Stagioni Del Novecento

 Google画像検索で調べたところ、世界で最も撮影されているベアトリーチェ像が名古屋市と箱根にある。
 鶴舞公園は24時間立ち入りできるようで、大変心強い。名古屋市には半年くらい住み込みで撮影に行きたいと念じているが、そういう日は来るだろうか。
 
 
 名古屋市・鶴舞公園

 箱根彫刻の森美術館では、お隣りに新谷琇紀作品が設置されているので、たいへん助かる。毎年12月から明けて1月中旬まで閉館時刻を18時まで延長する「ナイトミュージアム」があるらしい(本年は中止)。箱根では冬至の前後常用薄明が17時頃に終わるので、約1時間撮影時間を見込めるのだが、ライトアップされると光線のコントロールが難しくなるし、さすがにお客様に混じって一人時間差マルチストロボ撮影はできないだろう。

箱根・彫刻の森美術館

QIIME2ことはじめ(4)

 MacBook Proを買う気がもりもり盛り上がっている。
 それで、まずMBAを将来の解析マシンに見立てて、MBAから一旦condaやpython 3も抜いてクリーンな状態からpython 3.9やqiime2を再度インストールした。current protocolの解析を一通りやり遂げるところまで仕上げて、これをモデルとしてスケールアップしていくためにMacBook Proを導入というシナリオを考えている。
 Jupyter Notebookに従ってcurrent protocolの通りに解析を行うとすると、qiime2インストールに続いて「dependency」パッケージ(songbird, redbiom, bioconda, bowtie2, SHOGUN, q2-shogun, cytoolz)をcondaやpipでインストールする(ようにしましょうと書いてある)。ところが、何かのパッケージがtensorflow-estimatorモジュールのバージョン1.15.1に依存しているらしく、「2.2.0が入ってます」エラーで3. Create a summary of demultiplexed filesの解析が進まないのが(3)での問題点であった。
 tensorflow本体や関連モジュールのバージョンは1.15.1なのに、estimatorだけバージョンが2.2.0で、ダウングレードできそうにないし、いっそ「dependency」パッケージを入れる前の素のqiime2でやってみたらどうかと試すまえに、とりあえずconda remove tensorflow-estimatorで、依存関係にある20パッケージも同時退場させた環境で試してみた(ボーマン船長の戦略)。
 同時退場になったsongbirdを使う解析はうまく行かないが、それ以外の解析は可能であることが確認でき、bashスクリプトにまとめられそうである。一方で、解析記録をJupyter Notebookで残しておけるのはありがたいのである。そのうちにバージョンアップで使えるようになることを切に念願する。
 一方で、筆者が本当に狙っていることはQiime2でなくてもredbiomだけでまかなえそうなことがわかってきて、少し脱力してしまった。MacBook Proを導入する必然性が揺らぐ事態となっている。