BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース MITの研究者、大学レベルの数学問題を解くAIモデルを開発

MITの研究者、大学レベルの数学問題を解くAIモデルを開発

MITの研究者は、大学レベルの数学コースで使用される問題を解けるAIモデルを開発した。このシステムは、OpenAI Codexエンジンを使用して、グラフやプロットなどの問題解決方法を出力するプログラムを生成し、MATHベンチマークデータセットとMITのコースで使用される実際の問題で81%の精度を達成したのだ。

研究チームは米国科学アカデミー紀要(PNAS)に掲載された論文でこの成果を説明している。約70%の問題において、プロンプトを追加してテキストをCodexに入力するだけで、正しい答えを出すプログラムが生成されることを発見した。また似たような問題を文脈に合わせてモデルに与えるFew Shot学習方式では、さらに10%の問題を解答できた。そして、このモデルは人間が作成した問題と同等と評価される数学の問題を生成できる。MITの研究チームは説明する。

今回の成功はプログラムが数学の問題を解くための優れた表現と計算環境として機能することを裏付けている。私たちのアプローチは追加トレーニングを必要としないため容易に拡張可能だ。この研究は教育学上の重要な課題に取り組んでおりカリキュラムの設計や分析ツール、コンテンツの自動生成など、高等教育に大きな利益をもたらすだろう。

GPT-3やGoogleのPaLMのような大規模な事前学習済み言語モデルは数学、特に算数や質問応答において、いくつかのゼロショット能力を示している。しかし、バークレー校のDan Hendrycks氏によると、最近まで、これらのモデルは通常、問題解決のベンチマークで5%程度の精度しか達成できなかったという。今年初めInfoQはGoogleのMinervaを取り上げた。Minervaは数学に特化したデータセットを使って一般的なPaLM言語モデルを微調整している。Minervaは、テキストだけでなくLaTeXマークアップによる数式を含む解答を生成でき、MATHベンチマークでは平均スコア50.3%を達成したのだ。

MITの研究者たちは言語モデルを使って直接解答を生成するのではなく、OpenAIのCodexモデルを使って数値や方程式、さらにはグラフを含む解答を出力できるプログラムを生成することを選択した。ほとんどの問題では、"write a program "とプロンプトして問題文を三重引用符で囲むだけで、Codexが正しいプログラムを生成してくれるのだ。

単純なプロンプトが効かない場合のために研究者はFew Shotの学習ワークフローを開発した。まずデータセットのすべての問題に対して単語埋め込みを算出する。そして解決済みの問題のうち未解決の問題にもっとも似ている上位5つを、その解答コードとともにモデルへの入力例として使用するのだ。この方法によって全体の精度を81%にできる。

またこのモデルは新しい問題を生成可能だ。データセットからいくつかの問題を番号つきリストとして連結し、これをCodexのプロンプトとして使用し、Codexはリストの次の項目として生成された問題について応答する。生成された問題の質を評価するために、研究者はMITの数学の授業を受講した学生に調査をした。その結果、人間が作成した問題と「難易度が似ている」と評価され、わずかではあるがモデルが作成した問題よりも人間が作成した問題のほうが、適していると評価された。

MITは問題と解答のコード及びデータセットを、GitHubで公開している。

作者について

この記事に星をつける

おすすめ度
スタイル

BT