BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Google、Facebook、Microsoftの大規模多言語AIモデル

Google、Facebook、Microsoftの大規模多言語AIモデル

原文(投稿日:2020/11/03)へのリンク

GoogleFacebookMicrosoftの各研究者グループがそれぞれ、多国語AIモデルの最新の成果を発表している。GoogleとMicrosoftは、XTREMEベンチマークによる測定において、NLPタスクで現在最高のパフォーマンスを達成したモデルをリリースした。またFacebookは、英語中心でない多対多の翻訳モデルを開発している。

Microsoft Research、Google Research、Facebook AI Research(FAIR)の各研究チームは、単一自然言語処理(NLP)モデルの多言語対応に関わる問題に取り組んでいる。MicrosoftのProject Turingが開発したTuring Universal Language Representationバージョン2(T-ULRv2)モデルは、94言語のテキストフレーズを同じベクトルスペースにエンコードすることができる。このモデルは、40ヶ国語にわたるさまざまなNLP処理のモデルパフォーマンスを順位付けしたXTREMEベンチマークのリーダボードにおいて、現時点でトップの位置にある。Googleは、T5モデルの多言語拡張版であるmT5を開発している。このモデルは、100言語以上の6.3兆トークンを収めたオープンソースであるCommon Crawl リポジトリから新たに抽出された、大規模多言語データセットのmC4を使用してトレーニングされている。GoogleもXTREMEでの最高レベルの結果を主張しているが、最新のリーダボードにはまだ掲載されていない。Facebookの翻訳モデルであるM2M-100は、Common Crawlから抽出された別のデータセットであるCCMatrixでトレーニングされている。CCMatrixは100言語を含み、2,200のソース/デスティネーションの組み合わせによる75億の並列文(parallel sentence)で構成されている。M2M-100のパフォーマンスは、英語中心のデータセットでトレーニングされたモデルを凌駕している。FAIRの研究者であるAngela Fan氏によると、

すべての言語、方言、法性をサポートする単一モデルの存在は、より多くの人々をより適切にサポートし、翻訳を最新に保つような、数十億人を対象とする平等なエクスペリエンスを新たに作り出します。この成果によって私たちは、目標に一歩近付きました。

NLPにおけるディープラーニング利用に関する近年の成功の多くには、転移学習(transfer learning) — Webから取得した大規模データセットによって事前トレーニングされた大規模モデルの微調整 — が関与している。このデータの多くが英語であることが、モデルの使用を英語のみのタスクに制限する結果につながっている。モデルは英語以外のデータでトレーニングすることも可能だが、多くの言語は"リソース不足"、すなわち、その言語のトレーニングデータが欠如しているのだ。複数言語のデータによって単一NLPモデルを事前トレーニングすることにより、クロスリンガル(cross-lingual)なタスクにおいて"驚くほど優れた"パフォーマンスを示すモデルの生成が可能であることが、これまでの経験から分かっている。おそらくこれは、複数の言語に共通な普遍的構造が学習されることによるものと思われる。これらのモデルの多くには、Multilingual BERT(mBERT)やFAIRのXLM-Rなど、BERTモデルのバリエーションが使用されている。クロスリンガルモデルのパフォーマンスを評価するために、共通NLPベンチマークのクロスリンガルバージョンが開発されている。その一例であるXTREMEベンチマークでは、文の分類、文の検出、構造化推定(structured prediction)、質問応答のパフォーマンスを40の言語で計測する。

Googleの研究者たちは、複数言語における既存モデルのトレーニングという概念を、同社のT5モデルに適用した。T5は言語理解と質問応答において複数のNLPベンチマークでパフォーマンス記録を達成し、特にSuperGLEベンチマークでは"人間に近いスコア"を記録している。新たなモデルであるmT5は、Webから収集された101言語のデータを含む、Common Crawlデータセットの複数言語版であるmC4を使ってトレーニングされた。mT5モデルはTransformerアーキテクチャをベースとして、130億のパラメータを持ち、XTREMEの全タスクにおいて"最高レベルのモデルを匹敵、ないし凌駕"している。MicrosoftのT-ULRv2も同じくTransformerアーキテクチャに基づき、5.5億のパラメータを持ち、InfoXLMと呼ばれるモデル上に構築されている。Googleの論文はmT5がXTREMEにおいてInfoXMLのパフォーマンスを上回ると主張しているが、Microsoftの新しいT-ULRv2がそれまでトップであったAlibabaの開発したモデルを抜いて、XTREMEの公式リーダボードのトップランクにあるのに対して、mT5はリーダボードに掲載さえされていない。

GoogleとMicrosoftのモデルが質問応答などのNLPタスク用にチューニングされているのに対して、Facebookはニューラル機械翻訳(NMT)の問題に焦点を合わせている。この種のモデルも、多くの場合、2つの言語による"並記"テキストで構成される公開データを使ってトレーニングされる。そのため、リソースの少ない言語という問題もまた共通している。勢い、大部分のモデルが言語として英語を含むデータによってトレーニングされることになる。その結果生成されたモデルは、英語以外の2言語間の"ゼロショット(zero-shot)"翻訳は可能であっても、翻訳としての品質に劣る場合が多いのだ。

この問題に対処するため、Facebookの研究者たちは、並記テキストのデータセットを収集することから始めた。Common Crawlデータから"翻訳できそうな文章"をマイニングし、LASERという既存のディープラーニングモデルを使用して組み込み空間内にマッピングして、同じような組み込み値を持つ異なる言語の文章同士のペアを見つけるようにしたのだ。このデータを使って、154億のパラメータを持つTransformerモデルをトレーニングした結果、英語を経由せずに"100以上の言語を翻訳可能なモデルを、専用に2か国語モデルと遜色ないパフォーマンスで実現することができた。

FacebookのM2M-100GoogleのmTSはいずれも、コードとモデルをGitHubで公開している。多言語データセットのダウンロードとクリーニングを行うFacebookのスクリプトもGitHubで公開されている。Googleのmc4データセットは、TensorFlow Datasetパッケージに含まれている。Microsoftのモデルはオープンソースではないが、プライベートプレビューが可能だ。Microsoftの統一言語モデル(ULM)GitHubプロジェクトには、T-ULRv2を支えるテクノロジであるInfoXLMのフォルダが含まれているが、内容はarXiv論文へのリンクのみだ。 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT