Amazon Alexa AIのNatural Language Understandingグループは "Multilingual Amazon SLURP (SLU resource package) for Slot Filling, Intent Classification, and Virtual-Assistant Evaluation"(MASSIVE)をリリースした。自然言語理解(NLU)AIモデルのトレーニングを目的として、51言語から100万件のアノテーション付きサンプルを収めたデータセットだ。データを使用するためのコードやツールも含まれている。
リリースの発表はAmazon Scienceブログ上で行われた。MASSIVEは、英語のみで構成されるSLURPデータセットのフレーズを、Amazon Mechanical Turkから雇用された翻訳者が翻訳することで作成された。研究者らは、完成したデータセットを使ってXLM-RとmT5という2つのトレーニング済ベースラインモデルを微調整し、データのテストセット部分を使って評価した。その結果、微調整されたモデルは、"ゼロショット"の結果との比較において、完全一致の精度が20ポイント向上したことが示された。データセットとモデルコードのリリースに加えて、Amazonは、MASSIVEデータセットの一部を選択してモデルのテストを行う、"Massively Multilingual NLU 2022"(MMNLU-22)というコンテストの実施も発表した。勝者は8月に発表されて、次回のConference on Empirical Methods in Natural Language Processing(EMNLP)で実施されるワークショップに招待される予定である。Alexa AI Natural Understanding副社長のPrem Natarajan氏によると、
このデータセットが、世界中の研究者たちによる多言語言語理解研究の新たな進歩を促し、会話型AI技術の可用性と適用範囲の拡大に寄与することを願っています。
Alexaなどの仮想アシスタントは、NLUモデルの支援を受けてユーザの音声指示を処理する。これらのモデルはこの数年間で長足の進歩を遂げたが、そのトレーニングにはアノテートされた音声データ例を含む大規模なデータセットが必要だ。こうしたデータセットの収集には多額の費用と多くの時間を要することから、ほとんどの仮想アシスタントは、ごく少数の言語をサポートするに留まっている。Alexaに関しても、理解できるのはアラビア語、ドイツ語、英語、フランス語、ヒンディー語、イタリア語、日本語、ポルトガル語、スペイン語に限定される。
もっと多くの言語を使用したNLUモデルのトレーニングと評価を支援するため、Amazonのチームは、SLURPデータセットを50の言語に翻訳した。研究者らはまず、Mechanical Turkから翻訳者を雇用し、ターゲット言語に堪能な人材を選択した。翻訳の品質を評価するジャッジもMechanical Turkを使って採用し、その評価結果をアノテーションとしてデータセットに含めた。MASSIVE全体では、トレーニング用に58.7万、開発用に10.4万、テスト用に15.2万のサンプルが含まれている。未リリースのものも15.3万あり、コンテストで使用される予定である。
主任研究員のJack FitzGerald氏が、リリースに関するHacker Newsでの議論に参加した。翻訳の品質に関するコメントに対して、氏は次のような返答をしている。
手短に言って、品質管理は簡単なことではありませんでした。それでも、常によいものを目指していたことは事実です ... スコアの低い発話の一部は再収集したのですが、すべてについて完全なスコアを得るだけの予算はありませんでした。そこで、すべての発話に3人の評価者によるスコアを添えることで、ユーザが好きなようにフィルタリングできるようにしたのです。ノイズをそのまま維持することで、トレーニングに役立てたい場合もあると思うのです。
多言語AIモデルは、多くの大手ハイテク企業において活発な研究が進められているテーマのひとつである。今年始めにInfoQが紹介したMetaの多言語音声認識モデルXLS-Rは、128言語のデータを使ってトレーニングされている。MASSIVEデータセットを使ったベースラインモデルとして評価された、MetaとGoogleがそれぞれ開発したXLM-RとmT5や、Microsoftの開発したモデルについても、すでにお伝えしている。
MASSIVEデータセットのツールとモデリングコードはGitHubで入手できる。