BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAIは人間の指示に従うためのInstructGPT言語モデルを導入

OpenAIは人間の指示に従うためのInstructGPT言語モデルを導入

原文(投稿日:2022/02/25)へのリンク

OpenAIはGPT-3言語モデルを見直した。そして、有害な言語や誤った情報に関する不満に対処するためにInstructGPTと呼ばれる新しいデフォルトツールを導入した。

GPT-3は、他の大規模な言語モデルと同様に、部分的には説得力のある方法で人間のようなテキストを生成するために作成された。モデルをより安全で有用なものにし、指示に従うように調整するために、OpenAIでは、GPT-3の微調整として人間のフィードバック(RLHF)からの強化学習が使われた。

GPT-3と比較して、新しいInstructGPTモデルは英語での指示に従うのに優れている。誤った情報を生成する傾向が少なく、わずかながら有害な結果を生成する可能性が低くなっている。

GPT-3モデルをInstructGPTモデルに変換するために、OpenAIは3ステップの手順を設計した。まず、モデルの微調整である。 2つ目は報酬モデル(RM)の構築である。3つ目は教師あり微調整(SFT)モデルを採用し、強化学習を使用してさらに微調整することである。

1つの肯定的な側面は、InstructGPTがGPT-3よりもパフォーマンス面で優れていることである。これは、GPT-3がInstructGPTを超えることが多いNLPベンチマークの観点からは必ずしもそうではない。しかし、人間の好みによく適合しており、最終的には実世界の予測のパフォーマンスが優れている。その理由は、InstructGPTが、人間のフィードバックから学習する強化学習パラダイムを通じて、人間の意図とより一致しているためである。

一方、指示に従うことでGPT-3よりも優れているInstructGPTには、良くない面がある。悪意のあるユーザはそれを利用して、モデルの真実性と有用性を低下させ、より有害なものにする可能性がある。モデルがGPT-3よりも強力であることを考えると、ダメージはさらに大きくなる可能性がある。

ただし、InstructGPTは、指示に従う点でGPT-3よりも優れているだけでなく、人間の意図との整合性も高くなっている。AIアラインメント問題は、この分野でよく知られている問題である。それは、私たちの価値観、信念、欲求を理解し、それらに干渉しない方法で動作するAIシステムを設計することの難しさを定義している。

OpenAIによると、これはアライメントの最初のアプリケーションである。その結果は、これらの手法が汎用AIシステムと人間の意図とのアライメントを大幅に改善するのに効果的であることを示している。InstructGPTモデルは、OpenAI APIのデフォルト言語モデルとしてデプロイされるようになった

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT