プリンストン大学とイェール大学の研究者が、LLMにおけるChain-of-Thought(CoT)推論のケーススタディを発表した。このケーススタディでは、暗記と真の推論の両方の証拠が示された。また、CoTは、プロンプトで与えられた例が正しくない場合でも機能することがわかった。
この研究の動機は、LLMが本当に推論できるのか、それとも単にヒューリスティックや暗記に基づいたアウトプットなのかについて、研究コミュニティで根強い議論があることにあった。研究チームは、シフト暗号の解読という単純なタスクをケーススタディとして使用した。研究チームは、CoTプロンプトを使用したLLMのパフォーマンスは、暗記と、研究チームが「ノイズの多い」推論と呼ぶ推論の両方が混在していること、また正しい出力が得られる全体的な確率に依存していることを発見した。研究者によれば
[私たちは、CoTの効果が、基本的に、条件付けされたときに正解の確率を高めるような単語の並びを生成することに依存していることを示す証拠を発見しました。これがそうである限り、CoTは、プロンプトの実証が無効であっても成功します。LLMが推論するのか記憶するのかという現在進行中の議論において、今回の結果は妥当な中間点を支持するものです。LLMの行動は、記憶と推論の両方の側面を示し、またこれらのモデルの確率的起源を反映してます。
研究チームがシフト暗号の解読というタスクを選んだのは、その複雑さと、LLMの訓練に使われたインターネット上の情報源における使用頻度との間に「鋭い解離」があるからである。タスクはシフト値が大きくなるほど難しくなるが、もっとも難しいケースはインターネット上でもっともよく使われるrot-13である。もしLLMが単に暗記しているのであれば、rot-13の方が、本当に推論している場合よりも良い結果を出すだろう。対照的に、もしLLMが本当に推論をしているのであれば、rot-1とrot-25の成績はもっとも良く、rot-13の成績はもっとも悪くなるだろう。
予想される結果と実際の結果画像出典Akshara Prabhakar
研究チームは7文字の単語からなるデータセットを作成し、GPT-4によって正確に2トークンにトークン化した。また、「この単語は」という文章を完成させるために、各単語のGPT-2の確率を計算した。これにより、LLMがどの程度の確率でその単語を出力するかを制御ができた。次に、これらの単語をシフトしたものを作成し、GPT-4、Claude 3、Llama-3.1-405B-Instructの実験をした。
研究チームはまた、単語の代わりに算術を使って数列を解読させる実験も行った。このタスクはシフト暗号タスクと「同型」だが、数字のみを使用する。著者らは、この課題においてGPT-4が「ほぼ完璧に」機能することを発見し、すべてのシフト値に対してシフト暗号課題を正確に実行するために必要な「コア推論能力を持っている」と結論づけた。実際にはそうでなかったことから、彼らはCoTは 「純粋な記号的推論ではない」と結論づけた。しかし、CoTは「標準的な」プロンプトと比較してパフォーマンスを向上させるので、CoTは「単純な暗記」ではないという。
研究チームのメンバーであるR.Thomas McCoy氏(エール大学教授)は、CoTプロンプトの違いによって結果が異なるのではないかという他のユーザーからの質問に対して、こう書いている。
そうですね、そこには探求すべきことがたくさんあると思います! [共著者のAkshara Prabhakar氏]は、CoTの中で文字から数字に変換するクールな実験をしました。その結果、概してパフォーマンスは向上したが、定性的には似たようなグラフが得られました。だから、これは似たようなケースのひとつです。しかし、異なる傾向を示すものが他にもあるかもしれません!
この研究の実験コードとデータはGitHubで公開されている。