Char Wars

部分単語の脅威 (The Subword Menace) (inspired by a tweet by Sasha Rush)

少し前に、あなたの近くのプレプリントサーバーで…。

バイト単位の戦いの時代

最近の論文 で提案された純粋な文字レベルモデルは,偏った部分単語の秩序に初勝利を収めた。

部分単語トークン化 Transformer のアーキテクチャの他に,自然言語処理における最先端のモデルの特徴として,部分単語型トークン化がある。 部分単語トークン化は,他の型トークン化と同様,ある種のデータには他の型よりも適しているという前提で行われる。 具体的には,文字列を頻度で分割することに依存する。 これは標準的な英語のテキストではうまくいきますが、サブワード トークン化を使用するモデルは,自然なノイズ (タイプミス,ソーシャルメディアにおけるスペルのばらつきなど: Sun et al.2020) と合成ノイズ (敵対的事例: Pruthi et al.2019) の両方で苦労している。

非連鎖式形態素 部分単語トークン化は,形態素が連続的に連なっていない単語のモデル化が苦手なことでも知られている (これは非連鎖性形態素として知られている)。 英語では foot → feet のように不規則名詞の複数形で見られることがある,ヘブライ語やアラビア語のような他の言語ではより一般的である。

部分単語トークン化の改善 これらの課題に対処する方法の 1 つは,部分単語トークン化をより堅牢にすることである。 部分単語正規化 (Kudo et al., 2018) は,入力に対して異なる単語分割をサンプリングすることでこれを実現するもので,単語分割に対するドロップアウトと見なすことができる。 最近の NAACL 2021 の論文 では,これを一貫性正則化目的関数 (半教師付き学習からのアイデアに触発された) と組み合わせ,事前学習された多言語モデルをより堅牢にしている。 このマルチビュー部分単語正則化は,微調整の際にのみ適用することができ,他の言語に移行する際に一貫して性能を向上させることができるのが良い点である。

文字ベースモデル. 純粋な文字ベースのモデルは,一般的に単語レベルの対応するモデルを下回っている。 その代わりに,モデルは一般的に単語の文字に CNN を使用して文字を考慮した表現 (Kim et al.,2016) を取得し,これは ELMo (Peters et al.,2018) にも使用されている。 この方法は BERT にも適用されているが (Boukkouri et al.,2020),一般に効率が悪く,部分単語トークン化に基づく Transformer に負けている。 最近では,文字認識と部分単語ベースの情報を組み合わせて,スペルミスに対する頑健性を向上させることも行われている (Ma et al.,2020)。

CANINE. CANINE (Clark et al., 2021) は最近の Transformer モデルで,トークン化不要のため純粋な文字ベースモデルの伝統を受け継ぎ,入力として文字系列を直接使用する。 ダウンサンプリングとアップサンプリングの巧みな組み合わせにより,他の文字レベルモデルと比較してより効率的である (上記参照)。 局所的な自己注意を持つ Transformer は,文脈に応じた文字埋め込みを生成し,それをストライド畳み込みによってダウンサンプリングする; 次に (BERTのような) 標準的な深層 Transformer がこの系列に適用される。 最後に 2 つの Transformerの 表現が連結され,アップサンプリングされる。 事前学習では (空白の境界に基づいて選択された) 文字スパンがランダムにマスクされ,予測される。 このモデルは,多言語オープンドメイン質問応答データセット TyDi QA において mBERT を上回る性能を示した。

CANINE は,部分単語トークン化から一歩進んで,より柔軟で入力データ変動に適したモデルへと進化している。 このようなモデルは,他の言語だけでなく,新しい単語や言語の変化に対応したモデルの一般化を可能にする可能性がある (前回のニュースレター参照)。 しかし,部分単語分割は,そのシンプルさと使いやすさから,依然として標準的な手法であり続けるだろう。 したがって,最終的に誰がこの戦争に勝利するかはまだわからない…

部分単語の不吉なセンテンスピースに追われながら,新しい単語分割手法の研究は,我々のモデルをトークン化の重荷から解放し,世界の言語に正当な単語分割を回復することができる帰納バイアスの管理者を求めて前進している…