Facebook AI Research(FAIR)はXLS-Rをオープンソース化した。クロスリンガル音声認識(SR)AIモデルだ。XSLRは、128言語の436K時間の音声音声でトレーニングされている。以前の最大モデルよりも1桁多く、いくつかのダウンストリームSRタスクと翻訳タスクで現在の最先端技術を上回っている。
FAIRは、自身のブログでリリースを発表した。XLS-Rは、音声音声の表現を学習するための自己監視型アプローチであるwav2vec 2.0をベースとしている。このモデルは公開されているいくつかの音声データセットでトレーニングされている。音声データには、最近リリースされたコーパスで、欧州議会の音声録音を含むVoxPopuliが含まれている。全体として、モデルは128のヨーロッパ、アジア、アフリカの言語でトレーニングされた。これには、それぞれ100時間未満のオーディオデータを持つ88の低リソース言語が含まれる。XLS-Rはいくつかのベンチマークで新しい最先端のパフォーマンスレベルを達成した。ベンチマークには、VoxLingua107、CommonVoice、VoxPopuli、BABELのいくつかの言語、CoVoST-2での英語への翻訳が含まれる。FAIRチームは次のように述べている。
私たちは、この[研究]により、すべての人間の音声をより適切に理解する機械学習アプリケーションが実現できると信じています。そして、さらなる研究を促進して、世界中、特にサービスの行き届いていない人々の間で音声技術がより利用しやすくなるでしょう。私たちは、より少ない教師から学び、世界中の7,000以上の言語にアプローチを拡大するための新しい方法を開発することにより、アルゴリズムを改善し続けます。
深層学習音声認識モデルのトレーニングには、対応するテキストトランスクリプトと共に音声データを含む大規模なデータセットが必要となる。すぐに利用できるデータがないため、このようなデータセットの取得は、リソースの少ない言語では課題となる。この状況では、研究者は転移学習に目を向ける。転移学習では、公開されている大規模なデータセットで事前にトレーニングされたモデルを微調整する。この分野でのFAIRの以前の取り組みの結果、53言語の5万時間のオーディオデータでトレーニングされた300MパラメータモデルであるXLSR-53が生まれた。
画像出典: https://arxiv.org/abs/2111.09296
XLS-Rはwav2vec 2.0アーキテクチャをベースとしている。畳み込みニューラルネットワーク(CNN)機能エンコーダーを使って、音声を潜在音声表現に変換し、量子化してからTransformerに送る。トレーニング中、入力のスパンはマスクされる。モデルの目的は、マスクされた入力の量子化された表現を識別することである。結果として得られるトレーニング済みモデルは、オーディオ入力のエンコーダである。ダウンストリームタスクの場合、エンコーダーの出力は、音声の分類・認識のために線形レイヤーに送信するか、翻訳のためにデコーダーに送信できる。
FAIRチームは、XLS-Rのパフォーマンスをいくつかのベンチマークタスクのベースラインモデルと比較した。ベンチマークタスクは、自動音声翻訳(AST)、自動音声認識(ASR)、言語識別、話者識別などである。他の言語から英語に翻訳するASTタスクの場合、モデルは以前の作業を平均7.4 BLEU上回った。英語からの翻訳では、XSL-Rはベースラインと同程度のパフォーマンスであった。著者らは、これは以前のモデルの「英語のデータがトレーニングコーパスに対して支配的であるためだと思われる」と推測している。著者によると、最も困難なタスクのBABELで、XSL-Rはベースラインを上回り、「XLS-Rに事前トレーニングデータが加えられていない言語でも」、言語間の転送のメリットを示している。全体として、著者は、XLS-Rが「低程度から中程度のリソースの言語に最適なパフォーマンスを発揮する」ことを発見した。
この取り組みに関するTwitterのディスカッションで、ある読者が共著者のAlexis Conneau氏に、バイアスに関するXSL-Rの安全性を確保するためのアプローチについて尋ねた。Conneau氏は答えている。
ダウンストリームのタスクとあなたが考えているバイアスに依存します。事前トレーニング時に、ラベルのないデータをフィルタリングできます。微調整時には、生成の制御(ASR/AST)に関する大量の作業があり、包括的な要約を行うのは困難です。
XSL-RコードはGitHubから入手できる。事前にトレーニングされたモデルはHuggingFaceモデルリポジトリから入手できる。