2020-0418

浅川 伸一

松本先生,皆様

浅川伸一です。ご回答ありがとうございます。
峯松先生,お久しぶりです。興味深い資料をありがとうございます。勉強させていただきます。
松本先生,毎々,説明不足で申し訳ございません。以下に私なりの返答を 書かせていただきます。

どういう属性(神経回路上の処理に関わる)をもった刺激が処理のあり方をかえてしまうのか?というのが1つ目の疑問です。 それは、社会的刺激にどう付随していると考えるのか?というのが第2の疑問です。

松本先生のご指摘になっている “属性” という単語は,低次の物理的属性から高次の認知属性まで含まれると考えます。 音声認識の例で言えば,鼓膜を振動させる音圧の時間変化のような低次属性を考えることもできます。 一方で,自分の名前であったり,芸術的表現のような高次属性も考えることができます。 多層ニューラルネットワークでは,上位層においては異なる表現として分類される刺激でも,下位層では同じ刺激であることがあります。 異なる周波数であっても同じ音と分類される例としては,女性の声と男性の声で同じ単語が話される場合などに相当すると考えます。 このことから敷衍して大きく考えますと,松本先生の1つ目のご質問に対する私なりの 偏った 回答は, 刺激の受け手にとって意味のある刺激属性が処理のあり方を変える, となります。 受け手にとって意味があるとは,過去の良い報酬が得られたとか,罰を受けたという経験で良いと思われます。 その刺激属性は,鼓膜を振動させる音圧の変化である場合もあれば,津軽弁のような高次 特徴 抽出をしなければならないような場合もありえるでしょう。 このような複数の処理階層のうち,どの段階の特徴が重要になるかは上からの信号であったり,報酬であったりによって変化しうると考えます。 換言すれば,ちょうどよい抽象度の内部表現が選択されると考えます。

ちょうどよいという表現は,刺激の受け手と,報酬により定まります。 適切な図とは言い難い面もありますが,一点添付させていただきました。 出典は https://arxiv.org/abs/1802.02611 になります。 分野としては画像処理ですが,音声認識にも同様のアプローチがあったはずです。 不勉強で該当論文を探しきれずお示しできません。 申し訳ございません。 図左の(a)は従来どおりの深層学習モデル,図中央(b) は,各階層の処理結果に基づく情報から入力信号の切り分けを行うモデル。 図右(c) は結果に影響を与える適切な階層の情報を使って処理することを意味しています。


私の勝手な妄想ですが,上記の説明で,松本先生の 2 つのご質問に答えていると考えます。

しかし、子どもは35万人の声を聞かないとことばを聞き取れないわけではありません。数人(あるいはもって少ない)の家族の言葉を聞いただけで、初めての人のことばも聞き取るれようになる。 表情識別の学習においても、多数の表情をみせて(笑っているかそうでないか)と識別していくという方法が以前はとられていたと思います。 ビックデータによる社会的刺激の識別という話も、峯松先生のいうように子どもに適合するのではうまく行かないようにもおもうのですが。家族としか暮らしたことがない子どもが、はじめて見た人の表情を識別できないというのもなさそうに思います。 よくわからないのですが、深層学習とビックデータの話は一緒に語られることが多くて私が勝手にこの2つを結びつけてるだけかもしれません。少数データにもとづく深層学習という議論も出てるのでしょうか。

重要なご指摘だと思います。 近年盛んに研究されている話題であり,急速に精度向上が認められています。 ビッグデータを前提に深層学習の発展がありましたので,松本先生のご見識はそのとおりだと考えます。 その上で,まさに松本先生の問題意識を共有し,かつ,それに積極的に解を提案する形で近年の研究動向は推移していると考えております。 従いまして,発達心理学,特殊教育,認知心理学に直接関わってくると愚考いたします。話題が発散しないようにキーワードだけ示します。

  1. 如何にして,大量のデータを高速,かつ,効率的に学習するのか := 学習の高速化
  2. 如何にして,以前の学習体験から効率的な学習方法を学習するのか := メタ学習
  3. 如何にして,以前の学習結果を再利用するのか := 転移学習
  4. 如何にして,少数データから学習するか := ワンショット学習,少数事例学習

これらはウィキペディアにもすでに項目が挙げられている(下欄)ように人口に膾炙している考え方でもあります。
自分勝手に喋りすぎました,以後自粛いたします。
何卒よろしくお願い申し上げます。

浅川伸一
誠惶頓首

関連 wikipedia