GoogleとMicrosoft、それぞれの研究チームが先頃、SuperGLUEベンチマークで人の基準点より高いスコアを持つ自然言語処理(NLP)AIモデルを開発した。SuperGLUEは、質問応答(question answering)や読解など、いくつかの言語理解(NLU)タスクにおけるモデルのスコアを測定するものだ。
両チームは1月5日、自らのモデルをSuperGLUE Leaderboardに提出した。Microsoft ResearchのモデルであるDecoding-enhanced BERT with disentangled attention(DeBERTa)はベンチマークで90.3と、Text-to-Text Transfer Transformer(T5)とMeena chatbotをベースとしたGoogle Brainのモデルが記録した90.2をわずかに上回っているが、いずれも人の基準点である89.8を越えている。Microsoftは、DeBERTaの縮小バージョンをオープンソース公開するとともに、最新モデルのコードとモデルのリリース計画を発表した。Googleは最新モデルの詳細をまだ公表していない。また、T5のコードはオープンソースだが、chatbotは非公開である。
General Language Understanding Evaluation(GLUE)は2019年、BERTやGPTといったNLPモデルのパフォーマンスを評価する方法として開発されたもので、一般公開されているデータセットに基いた9つのNLUタスクのコレクションである。NLPモデルの急速な発達により、GLUEで評価できる"余地"が少なくなったため、より難易度の高いSuperGLUEが導入されることになった。
SuperGLUEには8つのサブタスクが含まれている。
- BoolQ (Boolean Questions) — 質問応答タスク。短い質問に対して、"はい"または"いいえ"で回答する。
- CB (CommitmentBank) — 埋め込まれた句から仮説を抽出する形式のテキスト含意タスク。
- COPA (Choice of Plausible Alternatives) — 因果推論タスク。前提と、2つの考えられる原因ないし結果の回答が与えられる。
- MultiRC (Multi-Sentence Reading Comprehension) — 質問応答タスク。ひとつのコンテキストの文章に関する質問に答えることが求められる。
- ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset) — 質問応答タスク。新たな記事と、それに関する質問が穴埋め形式(Cloze-style)で与えられる。マスクされた部分の適切な置き換えをリストから選択しなければならない。
- RTE (Recognizing Textual Entailment) — テキスト含意タスク。ひとつのテキストがもうひとつのテキストと相反しているかどうかを判断する。
- WiC (Word-in-Context) — 語義曖昧性解消タスク。2つのパッセージの中で、ひとつの単語が同じ意味で使用されているかどうかを判断する。
- WSC (Winograd Schema Challenge) — 共参照解決タスク。代名詞の先行詞を決定する必要がある。
これらのタスクはすべて、NLP研究分野において公開された成果から選ばれたもので、その一部 -- WiC、MultiRC、RTE、ReCoRD -- には、オリジナルの論文中に人によるパフォーマンス基準が掲載されている。それら以外の人のパフォーマンス基準を決定するために、SuperGLUEチームでは、Amazon Mechanical Turkを経由して人を雇用し、データセットにアノテーションを付けている。
2020年初め、Google BrainはMeenaチャットボットを発表した。Googleは、安全性やバイアスに関わる問題を理由として、そのコードやトレーニング済モデルをリリースしていないが、Evolved Transformerと呼ばれる、260億パラメータのseq2seq(sequence-to-sequence)ニューラルネットワークに基づくアーキテクチャを解説した論文を公開した。これとは対照的に、新たなモデルで使用されているT5 transformerはオープンソースで、最大110億パラメータのモデルファイルがいくつか提供されている。Googleはリーダボード登録に関する詳細を発表していないが、SuperGLEのリーダボードでは"T5とMeenaモデルを単一タスクの微調整と組み合わせる新たな手法"と紹介されており、論文が間もなく発表される予定である。
Microsoftは先日のブログ記事で、DeBERTaモデルの150億パラメータの最新バージョンを発表した。2020年中頃にリリースされたDeBERTaは、BERT由来のアーキテクチャを3つの新たな技術 — "disentangled attention", "enhanced mask decoder"、"virtual adversarial training for fine-tuning" — を使って改良したものだ。"disentangled attention"は、コンテンツ埋込み(content embedding)から単語埋込み(word embedding)を分離するもので、2つの値を加算する通常のBERTモデルとは対照的である。"enhanced mask decoder"では、この分離した位置情報を使って精度を向上している。"fine-tuning approach"は、敵対的学習(adversarial training)中の安定性を向上することにより、モデルの一般化を促進する。
Microsoftの研究チームはDeBERTaの他にも、Turing-NLGと呼ばれる170億パラメータモデルなど、NLP分野での進歩を続けており、2020年後半には、同社のAzureクラウドにホストされているスーパーコンピュータ上でトレーニングされた、OpenAIの1750億パラメータNLPモデルであるGPT-3の独占ライセンスを発表している。OpenAでは、Googleの例のように、誤用に関する懸念を理由として、トレーニング済モデルのリリースが遅くなる傾向がある。
MicrosoftのDeBERTa 2020のコードと縮小版のトレーニング済モデルはGitHubで公開されており、最新バージョンが間もなくリリースされる予定である。GoogleのT5のコードとモデルも同じく、GitHubから入手が可能だ。