OpenAIはWebGPTを開発した。GPT-3に基づく長い形式の質問応答用のAIモデルである。WebGPTは、Web検索クエリを使用して、その応答のサポートするリファレンスを収集する。Redditの質問に対する回答について、人間の審査員が69%の確率で、最高投票の回答よりも好んだ。
発表はOpenAIブログで行われた。WebGPTは、OpenAIの事前トレーニング済みGPT-3自然言語処理(NLP)モデルのバージョンである。Webブラウザーを使って検索エンジンのクエリを実行し、リンクをたどり、ソースを引用するように微調整されている。モデルは、Explain Like I'm 5 (ELI5) subredditから収集されたデータセットでトレーニングされている。トレーニングには、人間のフィードバックを組み込んだ教師あり学習と強化学習(RL)の組み合わせを使っている。モデルは、幅広いトピックの自由形式の質問に対して段落の長さの回答を生成できる。OpenAIは次のように述べている。
人間のフィードバックとWebブラウザーなどのツールによって、堅牢で本当の汎用AIシステムへの有望な道のりが提供されます。私たちの現在のシステムは、困難な状況やなじみのない状況に悪戦苦闘しています。それでもこの方向への大きな進歩を表しています。
質問応答(QA)は長い間AIの研究対象であった。ただし、ほとんどのデータセットは、短い回答を持つ単純な「トリビアタイプ」の質問にフォーカスしていた。2019年、よりスマートなデジタルアシスタントを作成することを目的として、FacebookとGoogleの研究者チームが、長い形式の質問応答(LFQA)タスクを提案した。これは、より複雑で自由形式の質問に対して、より豊富な回答を生成するAIを必要とするものである。チームはまた、LFQAモデルのトレーニングとベンチマークのためにELI5 subredditからスクレイピングされた大規模なデータセットを収集した。これは、平凡な質問(商品の価格がいつも「.00」ではなく「.99」で終わるのはなぜか)から、評価が難しい質問(なぜ皆が管理者にRedditゴールドを与えるか)まで、広範な質問(および関連する回答)で構成されている。
OpenAIのGPT-3モデルは、QAベンチマークで評価すると非常に優れていることが示されていた。TriviaQAベンチマークにおいて微調整なしで最大71.2%のスコアを獲得した。ただし、多くの言語モデルと同様に、GPT-3はしばしば幻覚を起こす。つまり、合理的に見えるが実際には正しくない回答を生成する。この問題に対処するために、多くの研究者は、情報検索メカニズムを加えて深層学習QAモデルを拡張した。このメカニズムでは、応答を生成するモデルのデコーダーメカニズムに追加のコンテキストを提供するために知識ベースにクエリが実行される。
OpenAIも同様のアプローチをとったが、モデルに情報検索を含める代わりに、Web検索エンジンと直接対話するようにモデルをトレーニングした。それは「人間がうまくやることができ、言語モデルが模倣できる」タスクである。チームは最初に、事前にトレーニングされたGPT-3モデルによって生成されたテキストコマンドを介して制御できるWebブラウジング環境を開発した。次に、モデルはRLエージェントとして動作する。質問とWebブラウザーの現在のページで構成される環境が与えられると、エージェントは、検索クエリの発行、リンクの追跡、ページからのコンテキストの抽出、最終結果の生成などのコマンドを生成する。このエージェントは、人間が生成した例の教師あり学習と、報酬モデルを使用したRLとの組み合わせを使って微調整される。
チームは、ELI5データセットとTriviaQAの両方でWebGPTを評価した。ELI5の評価では、OpenAIはRedditから投票数の多い回答を収集し、モデルと同じWebブラウジング環境を使って人間のデモンストレーターにも回答させた。研究者は請負業者を雇って、WebGPTの回答を人間の回答と比較した。WebGPTの回答は、69%の割合でRedditの回答よりも好まれ、56%の割合でデモンストレーターの回答よりも好まれた。TriviaQAベンチマークでは、WebGPTはGPT-3を上回った。75%の割合で正しい回答であり、54%の確率で「正しく有益な」回答を生成した。
InfoQは以前、外部の知識ベースを使用してAI言語モデルのパフォーマンスを向上させる取り組みを他にも記事にしてきた。例えば、知識グラフでトレーニングされたBaiduのERNIE 3.0や、インターネット検索を使って会話コンテキストを補足するFacebookのBlenderBot 2.0チャットボットがある。最近、DeepMindはRetrieval Enhanced TRansfOrmers(RETRO)を開発した。これは、事前にトレーニングされたTransformerモデルを拡張する方法で、モデルの注意メカニズムに情報検索を組み込んでいる。