プロジェクト名の案は、、 計算論的失語症臨床研究会 Computational Clinical Aphasia Project: CCAP なんだかピコ太郎のPPAPみたいで覚えやすくないですか?
2018Murez Fig.2 に基づく高倉先生のプレゼンに対する整理
大門先生, 複合語の処理について,回答を差し上げていませんでした。大変失礼しました。 複合語の取り扱いは word2vec の範囲を越えます。私見ですが我々がまったく新しい造語に触れた時に起こっていることを参考に考えるのが良いだろうと思っています。例えば ユニクロ という単語を知らなかった昔を考えます。このとき ユニ と クロ との 2 単語を知っていれば,両者を合成して心像を形成し,然る後に経験を通じて形成された心像を修正するだろうと思われます。 これにちかいことが BERT では行われています。関連用語としては BPE や Sentence Piece です。(参考文献としては次になります。神経心理がご専門の先生方は原著論文まで当たる必要は無いかと思いますが念の為に以下に示させていただきます: https://www.arxiv.org/abs/1804.10959, https://www.aclweb.org/anthology/P16-1009.pdf ) 従いまして,BERT の取り扱いも考慮する必要があると推察いたします。我々の CCAP プロジェクトでは導入が容易であることから word2vec を取り上げていました。ですが,上記の状況からできるだけすぐに BERT へ移行するつもりでいます。BERT の日本語版はかなり整備が進んでいます。そのため手軽に利用できる環境が整ってきました。 とりわけ国立国語研究所がアナウンスした国研版 BERT https://alaginrc.nict.go.jp/nict-bert/index.html はすぐにでも取り上げるつもりです。 どうぞよろしくお願い申し上げます。
word2vec で TLPA の意味情報を取得する場合の すりこぎ 以外にも,今回 tSNE で視覚化したグラフ描画の際に手を入れた情報があります。念の為お知らせいたします。 以下のような項目番号について word2vec の情報に併せて修正しました。
tlpa[106][‘label’] = “刺し身”
tlpa[116][‘label’] = “すりこ木”
tlpa[123][‘label’] = “ぶどう”
tlpa[139][‘label’] = “畳”
tlpa[162][‘label’] = “タイヤキ”
tlpa[188][‘label’] = “タツノオトシゴ”
説明不足で申し訳ございません。上記 6 項目は TLPA と word2vec 情報とが不一致となりましたので,上記のとおりに修正して用いました。 どうぞよろしくお願い申し上げます