Microsoft ResearchとGoogle AIの研究チームはAIシステムの言語間自然言語理解(NLU)タスク向けの新しいベンチマークを発表した。そのタスクには、固有表現抽出や質問応答などがある。GoogleのXTREMEは40の言語をカバーし、9つのタスクを含む。一方、MicrosoftのXGLUEは27の言語と11のタスクをカバーする。
2つのベンチマークと関連する実験は、arXivで公開された論文に記載されている。MicrosoftのXGLUEは、英語のNLUタスク用のGeneral Language Understanding Evaluation (GLUE)の言語間拡張であり、言語生成シナリオと理解タスクが含まれている。Microsoftチームは、XGLUEが言語間生成タスクベンチマークを作成する「最初の試み」であると主張している。GoogleのCross-lingual TRansfer Evaluation of Multilingual Encoders(XTREME)ベンチマークは、文の分類、文の検索、構造化された予測、質問応答など、さまざまなカテゴリにわたる9つのNLUタスクをカバーしている。アフリカや南インドからのいくつかの十分に研究されていない言語を含む、幅広い「類似している多様な」言語に対応する。Google AIのブログへの投稿で、チームメンバーのMelvin Johnson氏とSebastian Ruder氏は次のように書いている。
私たちは、GLUEやSuperGLUEなどのベンチマークがBERT、RoBERTa、XLNet、AlBERTなどのディープ単一言語モデルの開発を促進したのと同じように、XTREMEが多言語伝達学習の研究を促進することを願っています。
XTREMEを使用してモデルを評価するために、モデルは「クロスリンガル学習を促す目的を使って」多言語テキストコーパスで事前トレーニングされている。通常、このコーパスは、サポートされている各言語のWikipediaのコンテンツになる。次に、モデルはタスク固有のデータに基づいて微調整される。このデータは英語のみである。最後に、XTREMEは、他の言語のタスク固有のデータセットでモデルを評価する。これらのタスクのデータセットは次のとおりである。
- 文の分類: Cross-lingual Natural Language Inference(XNLI)コーパスおよびCross-lingual Paraphrase Adversaries from Word Scrambling(PAWS-X)
- 構造化された予測: Universal Dependencies v2.5の品詞(POS)データセットとWikiannの固有表現抽出(NER)データセット
- 質問応答: Cross-lingual Question Answering Dataset(XQuAD)、Multilingual Question Answering(MLQA)、Typologically Diverse Question Answering(TyDiQA-GoldP)
- 文の検索: Building and Using Parallel Corpora(BUCC)およびTatoebaデータセット
Googleチームは、多言語BERT(mBERT)、XLM、XLM-R、M4など、いくつかの最先端モデルをベンチマークでテストした。彼らは、モデルが、英語では「人間に近い」パフォーマンスを達成し、他の言語ではパフォーマンスがはるかに低いことを発見した。特に文の検索と構造化された予測タスクでは低いことが顕著である。モデルの中で、XLM-Rが最高のパフォーマンスを発揮した。
MicrosoftのXGLUEは、MLQA、XNLI、PAWS-X、NER、POSなど、XTREMEと同じタスクをいくつか使用する。XGLUEはまた、ニュースの分類とページランク付けのタスク、および質問とニュースタイトルのテキスト生成タスクも含む。Microsoftチームは、言語間のNLUタスク用にUnicoderの事前トレーニング済みモデルの拡張機能も作成した。彼らの実験では、このモデルをmBERT、XLM、XLM-Rモデルと比較した。彼らは、Unicoderが「ほぼすべてのタスク」で他のモデルよりも優れていることを発見した。
これらのベンチマークペーパーの公開に対して、Facebook AIの研究者でXNLIとXLMの共同発明者であるAlexis Conneau氏はツイートした。
強力で信頼できる評価ベンチマークを構築することは非常に重要ですが、過小評価されることもあります。 [Sam Bowman氏]と彼のチームのおかげで、GLUEが、言語モデルの事前トレーニングの重要性を示しており、私たち全員にとって役立ちました。そして今、私たちは強力なXLUベンチマークも持っています。
Microsoftチームは、コードまたはモデルXGLUEをまだリリースしていません。XTREMEのコードとデータはGitHubで入手できる。Googleはブログで、ベンチマークに対して測定されるモデルのための「提出用のポータルとリーダーボードを備えた今後のウェブサイトの立ち上げ」を約束している。