InfoQ ホームページニュース DeepSeekがDeepSeek-V3をオープンソース化、671BパラメータのMixture of Experts LLM

DeepSeekがDeepSeek-V3をオープンソース化、671BパラメータのMixture of Experts LLM

2025年1月28日読了時間 3 分

作者：

Anthony Alford
Senior Director, Development at Genesys Cloud Services

翻訳者

Hiroaki.Sugimura

原文リンク(2025-01-21)

DeepSeekは671Bパラメータを含むMixture of Experts (MoE) LLM、DeepSeek-V3をオープンソース化した。2.788M GPU時間を使って14.8Tトークンで事前学習され、MMLU、MMLU-Pro、GPQAを含む様々なLLMベンチマークで他のオープンソースモデルを上回る性能を示している。

DeepSeek-V3はDeepSeek-V2と同じMoEアーキテクチャに基づいているが、いくつかの改良が加えられている。V3は新しい補助損失のない負荷分散戦略と、マルチトークン予測(MTP)目標を採用している。DeepSeekチームはFP8数値フォーマットを用いた混合精度に切り替え、トレーニングフレームワークコードの並列性とノード間通信を改善することで、トレーニング効率も向上させた。チームはいくつかのベンチマークでモデルを評価し、Qwen2.5、Llama 3.1、Claude-Sonnet-3.5、GPT-4oを含むベースラインLLMと比較した；DeepSeek-V3は5つのコーディングベンチマークと3つの数学ベンチマークを含む大多数のテストで他のモデルを上回った。DeepSeekによると：

強力な性能とコスト効率を認識する一方で、DeepSeek-V3にはいくつかの制限があることも認識しています。特にデプロイメントに関して...DeepSeek-V3のデプロイメント戦略はDeepSeek-V2の2倍以上のエンド・ツー・エンド生成速度を達成しましたが、さらなる改善の余地が残されています。幸いなことに、これらの制限はより高度なハードウェアの開発とともに自然に解決されると予想されます。

DeepSeek-V3はMulti-Head Latent Attention (MLA)スキームも含め、V2のDeepSeekMoEアーキテクチャを維持している。MoEモデルであるため、推論時には総パラメータ671Bのうち37Bのみが各トークンに対してアクティベートされる。新しいロードバランサーは、トレーニング中に調整される各エキスパートに対してバイアス項を導入することで「負荷分散とモデルパフォーマンスの間のより良いトレードオフ」を提供する。

このモデルは2048台のNVIDIA H800 GPUからなる計算クラスタでトレーニングされた；クラスタの各ノードにはNVLinkとNVSwitchで相互接続された8台のGPUが搭載され、ノード間はInfiniBand (IB)で接続されていた。チームはトレーニングフレームワーク、HAI-LLMをゼロから構築した。彼らは「パイプラインバブルが少ない」DualPipeと呼ばれるパイプラインパラレリズムアルゴリズムを開発し、メモリ使用を最適化して「コストのかかるTensor Parallelismを使用せずに」トレーニングできるようにした。

事前トレーニング後、DeepSeek-V3は数学やコーディングを含む複数の分野から150万の例を含むデータセットで指示チューニングされた。このプロセスには教師ありファインチューニングと強化学習の組み合わせが含まれている；後者にはルールベースとモデルベースの報酬の両方が含まれていた。

DeepSeek-V3ベンチマーク結果

DeepSeek-V3ベンチマーク結果。画像ソース：DeepSeek-V3テクニカルレポート

オープンソースソフトウェア開発者 Aldo Cortesi氏はDeepSeek-V3の独自のベンチマークを実行し、Xにその結果を投稿した：

驚くべきことだ－実用的なコーディング例で[Sonnetと並ぶ1位タイ]でありながら、Sonnetの2倍の速さです。またDeepSeek v3はプロンプト遵守エラーを全く起こしませんでした－これは私がテストした中で唯一のモデルです。

Djangoフレームワークの共同作成者 Simon Willison氏も自身のブログでDeepSeek-V3についてこう書いた：

これはオープンライセンスのモデルの中で断然トップの評価です。DeepSeek v3で本当に印象的なのは学習コストです。このモデルは2,788,000 H800 GPU時間、推定コスト5,576,000ドルでトレーニングされています。Llama 3.1 405Bは30,840,000 GPU時間 - DeepSeek v3の11倍の時間を使用しましたが、ベンチマークではわずかに劣る結果となっています。

DeepSeek-V3のコードはGithubで公開されており、モデルファイルはHuggingfaceからダウンロードできる。

作者について

Anthony Alford

Anthony is a Senior Director, Development at Genesys where he is working on several AI and ML projects related to customer experience. He has over 20 years experience in designing and building scalable software. Anthony holds a Ph.D. degree in Electrical Engineering with specialization in Intelligent Robotics Software and has worked on various problems in the areas of human-AI interaction and predictive analytics for SaaS business optimization.

もっと見るより少なく

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

We protect your privacy.

Login with:

アカウントをお持ちでない方

DeepSeekがDeepSeek-V3をオープンソース化、671BパラメータのMixture of Experts LLM

作者について

Anthony Alford

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連するコンテンツ

スポンサードコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。