DeepThought-8Bは、LLaMA-3.1 8B上に構築された小型の「推論」モデルであり、OpenAI o1と同様に、意思決定プロセスを段階的に実行できるが、はるかに小型のパッケージである。
「わずか」16GBのVRAMを要するDeepThought-8Bは、特に段階的な問題解決、コーディング、数学的タスク、命令追従を目的としている。これを開発したRuliad社によれば、その推論能力はより大型のモデルに匹敵するという。
このリリースは、AIの推論をより透明で制御可能なものにするための第一歩であると同時に、より小型で効率的なモデルが、より大規模なモデルに匹敵する洗練された推論能力を実現できることを実証するものです。
Ruliad社の説明によれば、DeepThought-8Bは、問題の解決策を見つけるプロセスを、それぞれ特定のタイプの一連のステップに分解できる。プロセスの最初のステップは問題の理解であり、次にデータ収集、分析、計算、検証、結論の導き出し、実行と続く。実際のステップ数は、与えられたタスクの複雑さによって異なる。プロセスの最後に、DeepThoughtはすべてのステップの詳細を記したJSONドキュメントを出力し、ユーザーが推論を理解し検証できる。
Ruliad社は、ユーザーが再トレーニングすることなくモデルの推論パターンをカスタマイズできることを強調している。これは、モデルに含まれるdeepthought_inference
ツールに示されている。
Ruliad社はベンチマークスコアを公開しておらず、ユーザーにモデルをテストしてもらい、その結果をコミュニティと共有するよう呼びかけている。しかし、同社は他の主要モデルとの性能比較を公表している。
興味深いことに、DeepThought-8Bはコーディングと数学のタスクではLLaMA-3.1-8B-Instructと同程度の性能を示すが、「推論」のタスクでは上回っている。また、Ruliad社のモデルは、Qwuen-2-72Bよりも大きいにもかかわらず、当該モデルの性能を上回っている。一方、GPT-4o、o1-mini、Claude-3.5-Sonnetは、推論を含むすべてのカウントでDeepThought-8Bよりも良いスコアを得ている。いずれにせよ、これらのモデルははるかに大きいので、この結果は驚くべきことではないだろう。
"Hacker News"読者の何人かが、このモデルの性能を試してみた。和が123である2つの素数を見つける」ことや、「strawerberry」の「r」を数えること、あるいは「strawberry」の似たような非文字のバリエーションでは失敗したが、「2kgの羽毛と1kgの鉛ではどちらが重いか」には正しく答えた。これは些細なことに思えるかもしれないが、LLaMA-8BやGemma-2-9Bなどのような小規模LLMにとっては難しい問題のようだ。
他のHacker News読者は、このようなモデルが実際に「推論」するという考えに異議を唱え、答えに到達するための最良の経路を選択するためにビームサーチを使うことは、まったく「推論」とは言えないと強調した。このスタンスは、LLMモデルがタスクを解決する能力はかなり限定的であることを示す研究結果にも裏付けられている。なぜなら、LLMモデルは狭い手順に依存しているようで、トレーニングに使用した問題とは大きく異なる問題には容易に移行できないからだ。
DeepThought-8Bは、Hugging Faceからダウンロードするか、Ruliad社のウェブサイトで使用できる。