Facebook AI Research(FAIR)はクロスリンガル音声認識(XSLR)、多言語音声認識AIモデルをオープンソース化した。XSLRは53の言語でトレーニングされており、一般的なベンチマークで評価すると、既存のシステムよりも優れている。
モデルアーキテクチャと関連する実験は、arXivで公開された論文に記載されている。XSLRはwav2vecアーキテクチャ上に構築されており、転移学習を使用して「低リソース」言語でのパフォーマンスを向上させている。このシステムは、53の言語を含む3つの公開データセットで事前トレーニングされている。CommonVoiceとBABELのベンチマークで評価すると、モデルは既存のベースラインを上回る。このシステムは、事前トレーニングにない言語を学習することもでき、その言語で特別にトレーニングされた単一言語モデルよりも優れている。第一著者のAlexis Conneau氏は次のように述べている。
私たちの目標は、リソースが多い言語からの教師なしデータを活用して、実際には少ないリソースの言語による数回の学習を可能にすることです。
深層学習モデルのトレーニングには、ラベル付きの例の大規模なデータセットが必要である。音声認識の場合、これは対応するテキストトランスクリプトを含む音声データを意味する。このようなデータセットの取得は、ヨーロッパ以外の言語では困難な場合がある。すぐに利用できるデータがないため、リソースの少ない言語と呼ばれることがよくある。この状況で、研究者は転移学習に目を向けている。つまり、公開されている大規模なデータセットで事前にトレーニングされたモデルを微調整するものである。この戦略は、BERTなどの一般的なSequence-to-Sequence自然言語Transformerモデルを使用して、Facebookなどによってニューラル機械翻訳に適用されている。
FAIRは、2019年に自動音声認識(ASR)用にオリジナルのwav2vecディープラーニングモデルを公開した。そして、2020年にwav2vec 2.0モデルを更新した。このモデルは、畳み込みニューラルネットワーク(CNN)機能エンコーダーを使用して、音声を量子化された潜在的な音声表現に変換される。それは、その後、Transformerに提供される。Transformerは、音声表現のシーケンスをテキストに変換する。事前トレーニングフェーズでは、潜在的な表現のうち一定の割合がマスクされ、ネットワークはマスクされた値を予測することを学習する。これは、BERTで使用されている、マスクされた言語モデルのトレーニングに類似している。
XSLRは、wav2vec 2.0と同じアーキテクチャを使用している。これは、3つのデータセットから抽出されたオーディオデータの多言語バッチを使用して事前にトレーニングされている。その3つは、読み上げ音声のコーパスであるCommonVoice、電話での会話のコーパスであるBABEL、オーディオブックのコーパスであるMultilingual LibriSpeech(MLS)である。完全なデータセットには、53の言語で56,000時間以上の音声が含まれている。微調整されたモデルは、CommonVoiceとBABELで提供されるデータセットに対して評価される。チームは、さまざまなサイズのいくつかのモデルをトレーニングした。最大のモデルには、16個のアテンションヘッドを備えた1,204次元の24個のTransformerブロックが含まれていた。
リソースの少ない言語は、微調整でのみ使用され、事前トレーニングでは使用されない言語であるが、大規模なXSLRモデルはベースラインモデルよりも優れている。リソースの少ない言語は、関連する言語による事前トレーニングの恩恵を特に受ける。たとえば、追加でスペイン語データが事前トレーニングに含まれていると、イタリア語のパフォーマンスが向上する。研究者はまた、XSLRは、干渉、または言語間でのモデル容量の共有のために、リソースが多い言語では、ベースラインよりもパフォーマンスが悪くなることを指摘した。この干渉は、モデルの容量を増やし、事前トレーニング中に言語のサンプリングを調整することで軽減できる。
モデルの微調整に関するTwitterの質問にConneau氏は応えている。
アノテーション付きデータによる10分または1時間の微調整により...文字/音素認識のパフォーマンスが向上します。...教師付きが多いほど、パフォーマンスが向上します。
wav2vecとXSLRのモデルとコードは、GitHubで入手できる。