Meta FAIR、カリフォルニア大学バークレー校、ニューヨーク大学の研究者たちが、思考の選好最適化(TPO)を発表した。最終的な解答のみに注目する従来のモデルとは異なり、このアプローチでは、LLMがより正確で首尾一貫した解答を生成するために、内部的な思考プロセスを生成し、洗練させることができる。
この新しい手法は、修正されたChain-of-Thought(CoT)推論法を取り入れている。このアプローチは、トレーニング中にモデルが「回答する前に考える」ことを促し、最終的な回答をする前に、構造化された内部思考を準備できるようにするものである。CoTによる直接的な促しは、時に精度を低下させ、命令データセットに明示的な思考ステップがないためにトレーニングが困難であるが、TPOは、中間ステップをユーザーに公開することなく、モデルが思考プロセスを最適化し、合理化できるようにすることで、これらの限界に対処する。
この図は、思考の選好最適化(TPO)のプロセスを示している。このプロセスは、大規模言語モデル(LLM)に、応答を作成する前にさまざまな思考を生成するよう促すことから始まる。出力はサンプリングされ、判定モデルによって評価され、ベストとワーストの回答が特定される。これらの出力は、 直接選好最適化(DPO)のために、選択されたペアと拒否されたペアとして使用される。この反復訓練法は、より適切で質の高い応答を生成するモデルの能力を高め、全体的な有効性を向上させる。
この方法では、訓練プロンプトを調整し、応答する前にモデルが内部で考えるように促す。この一連の流れにより、LLMはより明瞭で適切な回答をするようになる。回答は、最終的な回答のみを採点するLLMベースの判定モデルによって評価され、モデルは、隠れた思考ステップとは無関係に、有効性だけに基づいて回答の質を高めることができる。TPOはまた、 直接選好最適化(DPO)を使用し、隠れた思考を含む優先回答と拒否回答のペアを作成することで、複数回のトレーニングサイクルにわたってモデルの内部プロセスを改良する。
AlpacaEval(長さ制御(LC))とArena-Hardのベンチマーク勝率(%)を示す。思考の優先順位最適化(TPO)という方法を、直接反応ベースライン、Llama-3-8B-Instruct、Thought Promptingを使用したLlama-3-8B-Instructと比較した。TPOは、思考生成を最適化するために、繰り返し学習する。TPOは反復トレーニングを通じて思考生成を最適化し、最終的にはベースラインを上回る性能を発揮する。いくつかの有名なLLMも参考として含まれており、通常TPOモデルよりも大きい。
TPO法は論理や数学のタスクにとどまらず、マーケティングや健康などの創造的な分野を含む、多様な指示に従うタスクに有益であることが証明されている。
AI&ロボットのKaran Verma医師は、次の投稿をXで以下の投稿を共有した。
考えるLLMのコンセプトとAI技術に革命を起こす可能性に興味があります。デジタルヘルスの愛好家として、このイノベーションがヘルスケアアプリケーションにどのように応用され、患者の転帰を改善できるのか興味があります。
構造化された内部思考プロセスによって、モデルは複雑な指示をより効果的に処理できるようになり、人間が提供する特定の思考データを必要とせずに、重層的な推論とニュアンスに富んだ理解を必要とする分野への応用が広がる可能性がある。この研究は、TPOがLLMを様々な文脈に適応し効果的にするのに役立ち、応答生成に柔軟性と深みの両方が要求される分野への応用が可能であることを示唆している。