OpenAIの研究者チームは先頃、前バージョンのGPT-2の100倍の1,750億のパラメーターを備えた自然言語のディープラーニングモデルであるGPT-3を説明する論文を発表した。モデルは約5兆語で学習済みであり、微調整することなくいくつかのNLPベンチマークで最先端のパフォーマンスを実現する。
arXivで発表された論文では、30人を超える共著者のチームがモデルといくつかの実験について説明した。研究者の目標は、微調整をほとんどまたはまったく行うことなく、さまざまなタスクで良好に機能するNLPシステムを作成することであった。以前の研究では、より大きなモデルが解決策になる可能性があることが示されていた。この仮説を検証するために、チームは以前のモデルであるGPT-2のサイズを15億のパラメーターから1,750億に増やした。学習のために、チームはCommon Crawlデータセットや英語版のWikipediaなど、いくつかのデータセットを収集した。このモデルは、いくつかのNLPベンチマークに対して評価され、「クローズドブック」の質問応答タスクにおける最先端のパフォーマンスと一致し、LAMBADA言語モデリングタスクの新記録を樹立した。
OpenAIは昨年、GPT-2のヘッドラインで、15億のパラメーターバージョンの学習モデルをリリースしないことを決定した。GPT-2は、Transformerアーキテクチャに基づく多くある大規模NLPモデルの1つである。これらのモデルは、自己教師あり学習を使用して、ウィキペディアコンテンツなどの大きなテキストコーパスで事前トレーニングされている。このシナリオでは、予想される出力とペアになっている入力を含むデータセットを使用する代わりに、モデルに「マスクされた」という単語を含む一連のテキストが与えられ、周囲のコンテキストに基づいてマスクされた単語を予測することを学習する必要がある。この事前トレーニングの後、モデルは、質問応答などの特定のNLPタスク用のラベル付けされたベンチマークデータセットで微調整される。
しかしながら、研究者は、特に大規模なデータセットで事前トレーニングされた大規模なモデルの場合、学習済みモデルは微調整なしでもかなりうまく機能することを発見した。今年の初めに、OpenAIはTransformerモデルのいくつかの「スケーリングの法則」を仮定した論文を発表した。いくつかの異なるTransformerベースのモデルのパフォーマンスデータに基づいて、OpenAIは、モデルのパフォーマンス(この場合、テストデータセットのクロスエントロピー損失)は、モデルパラメーターの数、データセットのサイズおよびトレーニングに使用される計算量とべき乗則の関係があると結論付けた。これらの3つの変数を増やすとパフォーマンスが向上する。
事前トレーニングのために、チームはCommon Crawl、WebText、英語版Wikipedia、および2冊のコーパスで構成されるデータセットを収集した。データの品質を改善するために、研究者らはCommon Crawlをフィルタリングして冗長性を削除した。Common Crawlはインターネットからスクレイピングされるため、トレーニングを「汚染する」ベンチマーク評価の実際のテストデータが含まれる場合があるからである。チームはこの汚染を取り除くことを試みた。しかし、彼らは認めている:
残念なことに、フィルタリングのバグにより、いくつかの重複を無視してしまい、トレーニングのコストのためにモデルを再学習することができませんでした。
チームはこのデータを使用して、1億2500万個のパラメーターから1750億個までのサイズのモデルの8つのバージョンをトレーニングした。モデルは、多くの場合、最先端に近いかそれ以上のパフォーマンスで、幅広いカテゴリの数十のNLPベンチマークで評価された。ニュース記事を生成するタスクでモデルを評価するために、チームはAmazon Mechanical Turkを使用して判断する人を雇い、一対の記事のどちらが本物で、どれがGPT-3によって生成されたかを推測した。人が実際の記事を選んだのは、52%だけであった。本質的に、人は本当の記事を選ぶのにコインフリップに勝るものはなかった。チームはまた、モデルのいくつかの弱点についても話し合った。たとえば、テキストの合成では、「GPT-3サンプルはまだ意味的にドキュメントレベルで繰り返され、十分に長いパッセージで一貫性を失い始め、矛盾し、時々不連続な文章や段落が含まれます。」 このモデルは、「チーズを冷蔵庫に入れたら、溶けますか?」などの「常識的な物理学」の質問にも問題がある。
NLP研究コミュニティのメンバー数人がTwitterでモデルのサイズについてコメントしている。Alchemy APIの創設者であるElliot Turner氏は、最大のモデルをトレーニングするためのコストは「ほぼ1200万ドル」になる可能性があると推測している。Mark Riedl教授は、モデルのサイズとパフォーマンスの関連の説明を提案する:
1つの仮説は、GPT-3は非常に多くのパラメータ(訓練されたトークンの数の半分)を持っているので、記憶ネットワークのように動作し始めているということです。
テストデータセットの一部と、モデルによって生成されたテキストサンプルのコレクションを含むGitHubリポジトリはあるが、GPT-2と同様に、OpenAIは学習済みモデルまたはコードをリリースしていない。