DeepSeekは推論能力を向上させるために強化学習(RL)でファインチューニングされたLLM、DeepSeek-R1をオープンソース化した。DeepSeek-R1はMATH-500やSWE-benchを含むいくつかのベンチマークで、OpenAIのo1モデルと同等の結果を達成している。
DeepSeek-R1は、DeepSeekが最近オープンソース化した専門家混合(MoE)モデルDeepSeek-V3をベースにしている。このベースモデルはRLの推論指向のバリアントGroup Relative Policy Optimization(GRPO)を使用してファインチューニングされている。研究チームはDeepSeek-R1からオープンソースのQwenとLlamaモデルへの知識蒸留をし、それぞれいくつかのバージョンをリリースした;これらのモデルは数学やコーディングのベンチマークにおいて、GPT-4を含む大規模モデルを上回る性能を示している。
「DeepSeek-R1は」純粋な強化学習(RL)を用いて言語モデルの推論能力を向上させるための第一歩です。私たちの目標は、純粋なRLプロセスによる自己進化にフォーカスし、教師データなしで推論能力を開発するLLMの可能性を探ることです...DeepSeek-R1は...創造的な文章作成、一般的な質問応答、編集、要約など、幅広いタスクで優れた性能を発揮します。さらに、DeepSeek-R1は長文理解を必要とするタスクで卓越した性能を発揮し、長文理解ベンチマークでDeepSeek-V3を大幅に上回ります。
このモデルを開発するために、DeepSeekはまずDeepSeek-V3をベースとした。最初にRLのみでファインチューニングを試み、教師ありファインチューニング(SFT)なしで、DeepSeek-R1-Zeroと呼ばれるモデルを開発・公開した。このモデルは強力な推論性能を発揮するが、「強力な推論行動はいくつかの課題に直面している。例えばDeepSeek-R1-Zeroは可読性の低さや言語の混在といった課題に苦戦している。」
これに対処するため、研究チームはRLの「コールドスタート」問題を防ぐための短期間SFTを実施した。RLを実行する前にDeepSeek-V3のSFTで使用する数千の連鎖推論の例を収集した。RLプロセスが収束した後、拒否サンプリングを使用してさらにSFTデータを収集し、80万サンプルのデータセットを作成した。このデータセットはさらなるファインチューニングと、LlamaやQwenから知識蒸留モデルを作るために使用された。
DeepSeekは、推論、数学、コーディングの各種ベンチマークでモデルを評価し、Claude-3.5-Sonnet、GPT-4o、o1などの他のモデルと比較した。DeepSeek-R1は、AIME 2024やMATH-500を含むいくつかのベンチマークで、これらすべてを上回った。
DeepSeek-R1のパフォーマンス。画像ソースDeepSeek-R1テクニカルレポート
リリースから数日内に、DeepSeek-R1がアリーナで総合3位、コーディングと数学で1位にランクインしたとLMArenaが発表した。また、「スタイルコントロール付きハードプロンプト」カテゴリーではo1と同率1位となった。
Djangoフレームワークの共同制作者 Simon Willison氏は、自身のブログでDeepSeekの知識蒸留Llamaモデルを使った実験について書いている。
各レスポンスは、レスポンスの生成に使われた思考の連鎖を含む
... 擬似XMLタグで始まります。「ペリカンとセイウチがティールームを共同経営するジョーク」というプロンプトを与えられると...その後、ジョークを出力する前に20段落を考えました!...そのジョークはひどいものでした。しかし、そこに至るまでのプロセスは、これらの新モデルがどのように動作するかについての非常に興味深い発見でした。
Andrew Ng氏のニュースレターThe BatchはDeepSeek-R1についてこう書いている。
DeepSeekはオープンモデルの強力なビルダーとして急速に台頭しています。これらのモデルは優れた性能を発揮するだけでなく、そのライセンスが出力を知識蒸留に使用することを許可しており、あらゆる規模の言語モデル(およびマルチモーダルモデル)の技術進歩を促進する可能性があります。
DeepSeek-R1モデルはHuggingFaceで利用できる。