Google AIは先日、1,000 Languages Initiativeをサポートするユニバーサルスピーチモデルのアップデートを発表した。このモデルは自動音声認識のすべてのセグメントにおいてOpenAI Whisperよりも優れた性能を発揮する。
ユニバーサルスピーチモデル(USM)とは異なる言語やアクセントの音声言語を認識・理解するために訓練された機械学習モデルである。USMは300以上の言語にわたる1200万時間の音声と、280億文のテキストで訓練された20億のパラメータを持つ最先端の音声モデルファミリーだ。Googleによると、USMは、アムハラ語、セブアノ語、アッサム語、アゼルバイジャン語などのリソース不足の言語から、英語、北京語などのよく使われる言語まで自動音声認識(ASR)を行うことができる。
学習プロセスの初期段階では、膨大な数の言語の音声を対象に教師なし学習が行われる。その後、オプションでテキストデータを用いた事前学習段階を設けることで、モデルの品質と言語カバー率を向上させることが可能だ。この段階を含めるかどうかは、テキストデータの有無によって決定される。第2段階を組み込むことで、USMは優れた性能を発揮することができるのだ。トレーニングパイプラインの最終段階では、自動音声認識や自動音声翻訳などの下流タスクが、最小限の教師付きデータを使って微調整される。
研究によると、自動音声認識(ASR)における2つの重要な課題は、スケーラビリティと計算効率である。従来の教師あり学習法は、特に代表的でない言語では、高品質のモデルを構築するために十分なデータを収集することが困難であるため、スケーラブルではない。
自己教師あり学習は扱いやすい音声のみのデータを利用できるため、多数の言語にわたるASRのスケーリングに適した方法である。ASRモデルが言語カバー率と品質を向上させながら、良い計算効率で改善するには、様々なソースからの大量のデータを扱い完全な再トレーニングを伴わずにに新しい言語やユースケースに一般化できる、柔軟で効率的、かつ一般化できる学習アルゴリズムが必要なのだ。
ラベルのない大規模な多言語データセットを用いてモデルのエンコーダを事前学習し、ラベル付きデータの小規模なコレクションで微調整することで、代表的でない言語を認識することが可能になった。さらに、この学習手順は新しいデータや言語にもうまく適応する。
ユニバーサルスピーチモデルは機械と人間の自然で直感的な対話を促進する上で、重要な役割を果たし多様な言語や文化をつなぐ架け橋となる。このモデルはバーチャルアシスタント、音声認識デバイス、言語翻訳、音声テキストトランスクリプトなどさまざまなアプリケーションで大きな可能性を秘めている。
今回のアップデートによりUSMは世界一広範な音声認識モデルとなった。この開発によって少数民族やあまり知られていない言語を話す人々が有意義にテクノロジーと関われるようになり、広範でアクセスしやすいインターネットの実現に向けた、Googleの取り組みは大きな一歩を踏み出したのである。