BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Meta社のリアルタイム音声翻訳AIシステムに向けたResearch SuperCluster

Meta社のリアルタイム音声翻訳AIシステムに向けたResearch SuperCluster

原文リンク(2024-08-21)

Meta社のエンジニアリング部門の最近の記事から、同社がリアルタイム音声翻訳、言語処理、コンピューター・ビジョン、拡張現実 (AR)の進歩に使用されるResearch SuperCluster (RSC)インフラをどのように構築しているかが明らかになった。大規模なモデルトレーニングは、ジョブ内のGPU数が増加するにつれて大きな課題に直面している。Meta社は、厳格なテスト、品質管理対策、自動問題検出と修正を通じて、「ハードウェア障害でトレーニングジョブが中断する可能性を最小限に抑える」必要性を強調している。Meta社は、このようなインシデントから迅速に復旧するために、「再スケジューリングのオーバーヘッドを減らし、トレーニングの再初期化を迅速に行う」ことに重点を置いている。Meta社は、「GPUのサブセット間の遅いデータ交換は、ジョブ全体を複雑にし、遅くする可能性がある」と指摘している。これに対処するため、Meta社は「堅牢で高速なネットワークインフラと、効率的なデータ転送のプロトコルやアルゴリズム」の必要性を強調している。

Meta社は、高度なAI技術の開発を推進するために、1秒間に数百京回の パワフルなコンピューティングシステムの必要性を強調している。この目的を達成するため、Meta社は2つの24k GPUクラスタを構築し、AIインフラを拡張した。Meta社は、RoCEInfiniBandのファブリックを、要件を満たす2つの主要な選択肢としたが、同時に、各選択肢にはそれぞれにトレードオフがあることも認識していた。

Meta社の決定は、この2つのテクノロジーに関する経験に由来している。Meta社は過去4年間RoCEクラスターを構築してきたが、最大のクラスターは4KGPUにしか対応しておらず、現在のニーズを満たしていなかった。一方で、Meta社は以前、InfiniBandで最大16K GPUに対応する研究クラスタを構築していたが、これらは本番環境に完全には統合されておらず、最新のGPUとネットワーク技術に最適化もされていなかった。

これらの課題に対処するため、Meta社は2つの24K クラスタを構築することを決定した。1つはRoCEを使用し、もう1つはInfiniBandを使用する。Meta社の狙いは、両方の実装から生成AIファブリックの運用経験を得ることである。

Meta社は、ネットワーク技術の根本的な違いにもかかわらず、両方のクラスタをチューニングし、生成AIワークロードへ同等のパフォーマンスをもたらすことに成功したと報告した。

Meta社はオープンコンピュートとオープンソースの原則に コミットし続けている。Meta社は、Grand TetonOpenRackPyTorchを使用してこれらのクラスタを構築し、業界全体でオープンイノベーションを進める取り組みを強化している。

将来的に、Meta社は、インフラの大幅な拡張を目指しており、2024年末までに350,000基のNVIDIA H100 GPUを導入する計画だ。総計算能力は、H100の約600,000基分に相当すると予測している。

出典: Network Compute Storage Under The Hood

このアーキテクチャー図は、RSCチームのAIインフラを表したもので、ネットワーク、コンピュート、ストレージ、パフォーマンス最適化の主要コンポーネントが見やすくなっている。

ネットワーク層では、Meta社は2つの異なるソリューションを実装している。1つのクラスタは、Wedge400Minipack2のOCPラックスイッチを搭載したArista 7800をベースにRDMA (remote direct memory access) over Converged Ethernet (RoCE)ネットワークファブリックソリューションを使用している。もう1つのクラスターは、NVIDIA Quantum2 InfiniBandファブリックを採用している。

コンピュートには、Meta社は自社開発のGrandTetonプラットフォームを利用している。Meta社は、次のように説明している。

Grand Tetonは、何世代にもわたるAIシステムをベースに構築されており、性能、制御、コンピュート、ファブリックの各インターフェイスが1つの枠組みに統合されることで、パフォーマンス、シグナルインテグリティ、熱面でのパフォーマンスが全体的に向上しています。

生成AIトレーニングのマルチモーダル化に伴い、ストレージ要件も増加している。Meta社は、「自社のTectonic分散ストレージソリューションをフラッシュメディアに最適化したバージョンで自社開発のLinux Filesystem in Userspace (FUSE) APIを支えること」によって、これに対処している。

パフォーマンスの最適化については、「最適な ネットワーク利用を実現するために、NVIDIA Collective Communications Library (NCCL)の変更と併せて、ネットワークルーティング戦略も最適化しました」とMeta社は述べている。

LlaMANo Language Left Behind (NLLB)Universal speech translator定理証明は、RSC上で実行される数多くのプロジェクトの一部である。

企業が野心的なAIインフラ拡張を発表するにつれ、大規模AIトレーニングが環境に与える影響についての疑問が表面化してきた。最近の研究では、 大規模言語モデルのトレーニングに伴い、大幅にエネルギーが消費されることが明らかになった。Accenture社のアナリティクス兼AIイノベーションディレクター、Paul Walsh氏は昨年、次のように記している。

大規模言語モデルのトレーニングによって消費されるエネルギー量が増加していることが、調査研究によって浮き彫りになりました。わずか6年間で30万倍に膨れ上がると推定され、AIモデルのサイズが3.4か月ごとに倍増していることから、二酸化炭素の排出量も膨大になる可能性があります。

機械学習エンジニアのDiogo Ribeiro氏は、業界で高まっている以下の懸念を強調している。 「こうしたモデルサイズ拡張が継続して繰り返されることで、企業は、環境への悪影響に加え、増え続けるエネルギーコストにも直面することになる。」

Ribeiro氏は、「ハードウェアレベルであれば、企業は省電力GPUへ少し多めに投資することを選択できます。」とRibeiro氏は助言する。こうしたアプローチで、企業はAIを巡る野望と環境への責任を両立させる具体的な方法が得られる。

大規模言語モデルワークロードのスケーリングに関する詳細は、こちらのプレゼンテーション、インフラコストの最適化、機械学習のトレーニングインフラ分散型インフラ上の大規模言語モデルトレーニングを参照のこと。

作者について

この記事に星をつける

おすすめ度
スタイル

BT