MicrosoftとGoogleが言語横断のAIタスクに対する新しいベンチマークをリリース

原文(投稿日：2020/04/21)へのリンク

Microsoft ResearchとGoogle AIの研究チームはAIシステムの言語間自然言語理解（NLU）タスク向けの新しいベンチマークを発表した。そのタスクには、固有表現抽出や質問応答などがある。GoogleのXTREMEは40の言語をカバーし、9つのタスクを含む。一方、MicrosoftのXGLUEは27の言語と11のタスクをカバーする。

2つのベンチマークと関連する実験は、arXivで公開された論文に記載されている。MicrosoftのXGLUEは、英語のNLUタスク用のGeneral Language Understanding Evaluation (GLUE)の言語間拡張であり、言語生成シナリオと理解タスクが含まれている。Microsoftチームは、XGLUEが言語間生成タスクベンチマークを作成する「最初の試み」であると主張している。GoogleのCross-lingual TRansfer Evaluation of Multilingual Encoders（XTREME）ベンチマークは、文の分類、文の検索、構造化された予測、質問応答など、さまざまなカテゴリにわたる9つのNLUタスクをカバーしている。アフリカや南インドからのいくつかの十分に研究されていない言語を含む、幅広い「類似している多様な」言語に対応する。Google AIのブログへの投稿で、チームメンバーのMelvin Johnson氏とSebastian Ruder氏は次のように書いている。

私たちは、GLUEやSuperGLUEなどのベンチマークがBERT、RoBERTa、XLNet、AlBERTなどのディープ単一言語モデルの開発を促進したのと同じように、XTREMEが多言語伝達学習の研究を促進することを願っています。

XTREMEを使用してモデルを評価するために、モデルは「クロスリンガル学習を促す目的を使って」多言語テキストコーパスで事前トレーニングされている。通常、このコーパスは、サポートされている各言語のWikipediaのコンテンツになる。次に、モデルはタスク固有のデータに基づいて微調整される。このデータは英語のみである。最後に、XTREMEは、他の言語のタスク固有のデータセットでモデルを評価する。これらのタスクのデータセットは次のとおりである。

文の分類: Cross-lingual Natural Language Inference（XNLI）コーパスおよびCross-lingual Paraphrase Adversaries from Word Scrambling（PAWS-X）
構造化された予測: Universal Dependencies v2.5の品詞（POS）データセットとWikiannの固有表現抽出（NER）データセット
質問応答: Cross-lingual Question Answering Dataset（XQuAD）、Multilingual Question Answering（MLQA）、Typologically Diverse Question Answering（TyDiQA-GoldP）
文の検索: Building and Using Parallel Corpora（BUCC）およびTatoebaデータセット

Googleチームは、多言語BERT（mBERT）、XLM、XLM-R、M4など、いくつかの最先端モデルをベンチマークでテストした。彼らは、モデルが、英語では「人間に近い」パフォーマンスを達成し、他の言語ではパフォーマンスがはるかに低いことを発見した。特に文の検索と構造化された予測タスクでは低いことが顕著である。モデルの中で、XLM-Rが最高のパフォーマンスを発揮した。

MicrosoftのXGLUEは、MLQA、XNLI、PAWS-X、NER、POSなど、XTREMEと同じタスクをいくつか使用する。XGLUEはまた、ニュースの分類とページランク付けのタスク、および質問とニュースタイトルのテキスト生成タスクも含む。Microsoftチームは、言語間のNLUタスク用にUnicoderの事前トレーニング済みモデルの拡張機能も作成した。彼らの実験では、このモデルをmBERT、XLM、XLM-Rモデルと比較した。彼らは、Unicoderが「ほぼすべてのタスク」で他のモデルよりも優れていることを発見した。

これらのベンチマークペーパーの公開に対して、Facebook AIの研究者でXNLIとXLMの共同発明者であるAlexis Conneau氏はツイートした。

強力で信頼できる評価ベンチマークを構築することは非常に重要ですが、過小評価されることもあります。 [Sam Bowman氏]と彼のチームのおかげで、GLUEが、言語モデルの事前トレーニングの重要性を示しており、私たち全員にとって役立ちました。そして今、私たちは強力なXLUベンチマークも持っています。

Microsoftチームは、コードまたはモデルXGLUEをまだリリースしていません。XTREMEのコードとデータはGitHubで入手できる。Googleはブログで、ベンチマークに対して測定されるモデルのための「提出用のポータルとリーダーボードを備えた今後のウェブサイトの立ち上げ」を約束している。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco