BigScience Research Workshopは、ゼロショット・マルチタスク(zero-shot multitask)学習の研究を目的として特別にトレーニングされた自然言語処理(NLP)AIモデルのシリーズを、T0としてリリースした。T0はBIG-benchベンチマークの大半において6倍規模のモデルを上回り、他のNLPベンチマークの一部では16倍の規模を持つGPT-3のパフォーマンスをも凌駕する。
Workshopチームは、arXivで公開された論文の中でモデルとそのトレーニングデータセットについて説明している。完全に"未知(unseen)"のタスクを使って大規模NLPモデルのゼロショットパフォーマンスを調査するため、研究者たちは、教師あり学習NLPデータの大規模なセットを、テンプレート化されたプロンプト形式に変換する作業を実施した。研究の目的は、この形式のトレーニングデータで未知のタスクを汎化するT0の能力を改善可能か、判断を下すことにあった。用意された11のデータセットを用いた評価において、T0は、その中の8つのデータセットでGPT-3のパフォーマンスを上回る結果を出した。さらに、BIG-benchベンチマークの14タスク中の13においては、他の基準モデルを凌ぐ成績を上げた。
大規模な言語モデルは、多くの場合において未知のタスク -- 処理トレーニングを行っていないタスクを、比較的良好に処理することができる。例えばGPT-3では、明示的に実施したのは文章内のマスクされた単語を入力するトレーニングのみだが、実際のモデルは翻訳や質問への応答、さらには3桁の計算までも行うことができる。これを説明する仮説のひとつとして、モデルがトレーニングデータ内にある"暗黙の混合タスク"に遭遇するため、というものがあるのだが、トレーニングデータが主としてWebから収集されたものであるため、そのようなタスクが暗黙的に含まれるのではないか、とBigScienceのチームは指摘している。
BigScience Research Workshopは、"50か国250以上の機関からの600人の研究者"による、1年間にわたるコラボレーションで、大規模なマルチリンガルデータセットとディープラーニングNLPモデルの開発および調査を目標とする。同チームがT0を構築したのは、"教師あり、かつ極めて大規模なマルチタスク方式による、巨大な言語モデルの意図的かつ明示的なトレーニングの焦点を当てる"ためだ。このトレーニングデータの重要なポイントは、自然言語のプロンプトを使って言語タスクを指定することにある。この形式のトレーニングデータを使うことによって、少ないモデルパラメータで未知のタスクをよりよく汎化できるのではないか、と研究者たちは仮説を立てているのだ。
データセットを作成するため、同チームは、さまざまなNLPタスク用の既存の教師あり学習データを収集し、一連のテンプレートを使ってそれらをプロンプト形式に変換した。例えば自然言語推論タスクのテンプレートは、"Xであると仮定した場合、Yだと推測できるか?"というようなものだ。XとYには、例えば"銀行家は教授と運動選手に連絡した"、"銀行家は教授に連絡した"というようなフレーズが入る。このようなインプットに対して、モデルには、真(true)または偽(false)のいずれかへの分類がアウトプットとして求められる。最終的に研究者たちは62のデータセットを収集し、それを12のタスクに整理した。
T0モデルはGoogleのText-To-Text Transfer Transformer(T5)トレーニング済モデルをベースとして、プロンプト形式のマルチタスクデータセットの混合によってファインチューニングされている。モデルのゼロショット汎化能力の評価には、4つのタスクのデータセットがすべて使用された。その結果、110億のパラメータを持つこのモデルは、1,750億パラメータのGPT-3のパフォーマンスを、11のデータセット中8つにおいて上回ったのだった。
T0研究チームのメンバ数人がHacker Newに参加して、この開発について議論している。その中のひとりが、GoogleとEleutherAIがいずれも先頃、汎化能力向上のために"インストラクションチューニング"言語モデルを調査したことに触れていた。モデルのサイズは推論において"面倒"なものか、という質問に対しては、別の研究者が次のようにリプライしている。
サイズが問題になるか、という点に関して言うならば、Google Cloud TPU v3-8デバイス1個でも、あるいは4×32GB×100GPUを備えたサーバでも推論の実行は可能ですし、Hugging Faceにも推論APIはあります ...
T0モデルファイルはHuggingFaceのサイトで公開されている。