マイクロソフト、北京大学、西安交通大学の研究者は、人間が自分の失敗から学ぶ方法を再現することによって、大規模言語モデル(LLM)の数学問題を解く能力を向上させる技術を開発したと発表した。
研究者らによると、LLMは問題を段階的に解決できることが示されているが、これはLLMが推論能力を持っていることを意味するものではない。
正確な推論に必要な基本的な論理やルールを純粋に理解することなく、人間の推論の表面的な振る舞いを模倣しているだけなのかもしれない。この理解不足が推論過程でのミスを招き、現実世界を支配する論理やルールについて事前に意識を持つ世界モデルの助けが必要となる。
LeMa(Learning from Mistakes)と名付けられた彼らが提案するアプローチは、GPT-4を様々なLLMによって生成される不正確な推論に対する一種の「修正者」として使用することからなる。例えば、LeMaは次のような問題に対して正しい解を提供できる。
ジェームズはメディア帝国を作る。彼は2000ドルで映画を制作する。DVDの製作費は1枚6ドルである。彼はそれをその2.5倍で売る。彼は週に5日間、1日に500本の映画を売る。20週間でいくらの利益が出るだろうか?
最初のステップで、GPT-4は間違いを特定する。第二のステップでは、GPT-4は間違いの原因を説明する。最後に、GPT-4は間違いを訂正し、新しい答えを生成する。
LeMaは上記のどのステップでも失敗する可能性があるため、訂正をその品質に基づいて3つのグループに分類する。研究者たちは、生成された50個の訂正のうち35個が「優」、11個が「良」、4個が「不良」であることを発見した。
すべての正解は、最終的に元の解答を生成したLLMにフィードバックされ、微調整される。
研究チームは、GSM8Kと MATHという2つの数学推論タスクでこのアプローチをテストし、従来のアプローチと比較して改善が見られることを発見した。LeMaはまた、WizardMath やMetaMathのような特殊なLLMの性能を向上させ、GSM8Kで85.4%、MATHで27.1%の pass@1の精度を達成した。
その他の興味深い結果としては、GPT-3.5-TurboはGPT-4の代わりに修正者として使用するには力不足であることが示された。同様に、GPT-4は難易度がもっとも低い2つのレベルの問題では良好な結果を示したが、難易度が上がるにつれて正答率が低下した。
最後に、チームはコード、データ、モデルをGitHubリポジトリで公開した。