BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース MicrosoftとGoogleが言語横断のAIタスクに対する新しいベンチマークをリリース

MicrosoftとGoogleが言語横断のAIタスクに対する新しいベンチマークをリリース

原文(投稿日:2020/04/21)へのリンク

Microsoft ResearchGoogle AIの研究チームはAIシステムの言語間自然言語理解(NLU)タスク向けの新しいベンチマークを発表した。そのタスクには、固有表現抽出や質問応答などがある。GoogleのXTREMEは40の言語をカバーし、9つのタスクを含む。一方、MicrosoftのXGLUEは27の言語と11のタスクをカバーする。

2つのベンチマークと関連する実験は、arXivで公開された論文に記載されている。MicrosoftのXGLUEは、英語のNLUタスク用のGeneral Language Understanding Evaluation (GLUE)の言語間拡張であり、言語生成シナリオと理解タスクが含まれている。Microsoftチームは、XGLUEが言語間生成タスクベンチマークを作成する「最初の試み」であると主張している。GoogleのCross-lingual TRansfer Evaluation of Multilingual Encoders(XTREME)ベンチマークは、文の分類、文の検索、構造化された予測、質問応答など、さまざまなカテゴリにわたる9つのNLUタスクをカバーしている。アフリカや南インドからのいくつかの十分に研究されていない言語を含む、幅広い「類似している多様な」言語に対応する。Google AIのブログへの投稿で、チームメンバーのMelvin Johnson氏とSebastian Ruder氏は次のように書いている。

私たちは、GLUEやSuperGLUEなどのベンチマークがBERT、RoBERTa、XLNet、AlBERTなどのディープ単一言語モデルの開発を促進したのと同じように、XTREMEが多言語伝達学習の研究を促進することを願っています。

XTREMEを使用してモデルを評価するために、モデルは「クロスリンガル学習を促す目的を使って」多言語テキストコーパスで事前トレーニングされている。通常、このコーパスは、サポートされている各言語のWikipediaのコンテンツになる。次に、モデルはタスク固有のデータに基づいて微調整される。このデータは英語のみである。最後に、XTREMEは、他の言語のタスク固有のデータセットでモデルを評価する。これらのタスクのデータセットは次のとおりである。

Googleチームは、多言語BERT(mBERT)、XLMXLM-RM4など、いくつかの最先端モデルをベンチマークでテストした。彼らは、モデルが、英語では「人間に近い」パフォーマンスを達成し、他の言語ではパフォーマンスがはるかに低いことを発見した。特に文の検索と構造化された予測タスクでは低いことが顕著である。モデルの中で、XLM-Rが最高のパフォーマンスを発揮した。

MicrosoftのXGLUEは、MLQA、XNLI、PAWS-X、NER、POSなど、XTREMEと同じタスクをいくつか使用する。XGLUEはまた、ニュースの分類とページランク付けのタスク、および質問とニュースタイトルのテキスト生成タスクも含む。Microsoftチームは、言語間のNLUタスク用にUnicoderの事前トレーニング済みモデルの拡張機能も作成した。彼らの実験では、このモデルをmBERT、XLM、XLM-Rモデルと比較した。彼らは、Unicoderが「ほぼすべてのタスク」で他のモデルよりも優れていることを発見した。

これらのベンチマークペーパーの公開に対して、Facebook AIの研究者でXNLIとXLMの共同発明者であるAlexis Conneau氏はツイートした。

強力で信頼できる評価ベンチマークを構築することは非常に重要ですが、過小評価されることもあります。 [Sam Bowman氏]と彼のチームのおかげで、GLUEが、言語モデルの事前トレーニングの重要性を示しており、私たち全員にとって役立ちました。そして今、私たちは強力なXLUベンチマークも持っています。

Microsoftチームは、コードまたはモデルXGLUEをまだリリースしていません。XTREMEのコードとデータはGitHubで入手できる。Googleはブログで、ベンチマークに対して測定されるモデルのための「提出用のポータルとリーダーボードを備えた今後のウェブサイトの立ち上げ」を約束している。

この記事に星をつける

おすすめ度
スタイル

BT