DeepSeekは671Bパラメータを含むMixture of Experts (MoE) LLM、DeepSeek-V3をオープンソース化した。2.788M GPU時間を使って14.8Tトークンで事前学習され、MMLU、MMLU-Pro、GPQAを含む様々なLLMベンチマークで他のオープンソースモデルを上回る性能を示している。
DeepSeek-V3はDeepSeek-V2と同じMoEアーキテクチャに基づいているが、いくつかの改良が加えられている。V3は新しい補助損失のない負荷分散戦略と、マルチトークン予測(MTP)目標を採用している。DeepSeekチームはFP8数値フォーマットを用いた混合精度に切り替え、トレーニングフレームワークコードの並列性とノード間通信を改善することで、トレーニング効率も向上させた。チームはいくつかのベンチマークでモデルを評価し、Qwen2.5、Llama 3.1、Claude-Sonnet-3.5、GPT-4oを含むベースラインLLMと比較した;DeepSeek-V3は5つのコーディングベンチマークと3つの数学ベンチマークを含む大多数のテストで他のモデルを上回った。DeepSeekによると:
強力な性能とコスト効率を認識する一方で、DeepSeek-V3にはいくつかの制限があることも認識しています。特にデプロイメントに関して...DeepSeek-V3のデプロイメント戦略はDeepSeek-V2の2倍以上のエンド・ツー・エンド生成速度を達成しましたが、さらなる改善の余地が残されています。幸いなことに、これらの制限はより高度なハードウェアの開発とともに自然に解決されると予想されます。
DeepSeek-V3はMulti-Head Latent Attention (MLA)スキームも含め、V2のDeepSeekMoEアーキテクチャを維持している。MoEモデルであるため、推論時には総パラメータ671Bのうち37Bのみが各トークンに対してアクティベートされる。新しいロードバランサーは、トレーニング中に調整される各エキスパートに対してバイアス項を導入することで「負荷分散とモデルパフォーマンスの間のより良いトレードオフ」を提供する。
このモデルは2048台のNVIDIA H800 GPUからなる計算クラスタでトレーニングされた;クラスタの各ノードにはNVLinkとNVSwitchで相互接続された8台のGPUが搭載され、ノード間はInfiniBand (IB)で接続されていた。チームはトレーニングフレームワーク、HAI-LLMをゼロから構築した。彼らは「パイプラインバブルが少ない」DualPipeと呼ばれるパイプラインパラレリズムアルゴリズムを開発し、メモリ使用を最適化して「コストのかかるTensor Parallelismを使用せずに」トレーニングできるようにした。
事前トレーニング後、DeepSeek-V3は数学やコーディングを含む複数の分野から150万の例を含むデータセットで指示チューニングされた。このプロセスには教師ありファインチューニングと強化学習の組み合わせが含まれている;後者にはルールベースとモデルベースの報酬の両方が含まれていた。
DeepSeek-V3ベンチマーク結果。画像ソース:DeepSeek-V3テクニカルレポート
オープンソースソフトウェア開発者 Aldo Cortesi氏はDeepSeek-V3の独自のベンチマークを実行し、Xにその結果を投稿した:
驚くべきことだ-実用的なコーディング例で[Sonnetと並ぶ1位タイ]でありながら、Sonnetの2倍の速さです。またDeepSeek v3はプロンプト遵守エラーを全く起こしませんでした-これは私がテストした中で唯一のモデルです。
Djangoフレームワークの共同作成者 Simon Willison氏も自身のブログでDeepSeek-V3についてこう書いた:
これはオープンライセンスのモデルの中で断然トップの評価です。DeepSeek v3で本当に印象的なのは学習コストです。このモデルは2,788,000 H800 GPU時間、推定コスト5,576,000ドルでトレーニングされています。Llama 3.1 405Bは30,840,000 GPU時間 - DeepSeek v3の11倍の時間を使用しましたが、ベンチマークではわずかに劣る結果となっています。
DeepSeek-V3のコードはGithubで公開されており、モデルファイルはHuggingfaceからダウンロードできる。