AWSとNVIDIAは、大規模言語モデルのトレーニングと高度なジェネレーティブAIアプリケーションの開発に特化した拡張性の高いオンデマンドAIインフラの開発を発表した。このコラボレーションはますます複雑になるAI関連の要求に対してもっとも最適化された効率的なシステムを構築することを目指している。
このコラボレーションでは最新のAmazon Elastic Compute Cloud(Amazon EC2)P5インスタンスがNVIDIA H100 Tensor Core GPUによって駆動され、AWSの先進的なネットワーキングとスケーラビリティが提供される。深層学習モデルのトレーニングで20exaFLOPSの計算性能が可能となる。
アクセラレーテッド・コンピューティングとAIがちょうど良いタイミングで到来した。アクセラレーテッド・コンピューティングは企業が低コストで多くのことを行うために、コストと電力を削減しながらステップファンクションの高速化を提供する。NVIDIAの創業者兼CEOであるJensen Huang氏は、「ジェネレーティブAIは企業が自社製品やビジネスモデルを再構築し、破壊される側ではなく、破壊する側になることを目覚めさせた。」と述べる。
ユーザーはP5インスタンスによりAWSの2世代目のElastic Fabric Adapter(EFA)ネットワークを活用した20,000個のH100 GPUまでスケールアップでき、スーパーコンピュータクラスの性能にオンデマンドでアクセスできる。これはAWS EFAによって提供される3,200 Gbpsの低レイテンシーで高帯域幅のネットワーク・スループットを活用した初のGPUベースのインスタンスである。
ユーザーはEC2 UltraClusterで最大20,000個のH100 GPUをスケールアップでき、P5インスタンスのおかげでAI用のスーパーコンピュータクラスの性能にオンデマンドでアクセスできる。このインスタンスは、AWSの第2世代Elastic Fabric Adapter (EFA) ネットワークの恩恵を受ける初のGPUベースのインスタンスとなり、低レイテンシー、高帯域のネットワークスループットを3200Gbpsで提供する。
AWSとNVIDIAは、AIやHPCのインフラを構築するために10年以上にわたってコラボレーションしており、その結果【P2、P3、P3dn、P4d(e)インスタンス】を開発した。最新のP5インスタンスは、NVIDIA GPUを搭載したAWS提供の第5世代で、音声認識、コード生成、動画/画像生成などの要求の高いジェネレーティブAIアプリケーションのための複雑なLLMやコンピュータビジョンモデルのトレーニング用に最適化されている。
Amazon EC2 P5インスタンスは、EC2 UltraClustersと呼ばれる強力なハイパースケールクラスタに配置され、最高性能の計算、ネットワーク、ストレージリソースで構成されている。これらのクラスタは、世界でもっとも強力なスーパーコンピュータであり、ユーザーは複雑な複数ノードの機械学習トレーニングや分散HPCワークロードを実行可能となる。AWS EFAによるペタビットスケールのノンブロックキング・ネットワークにより、ユーザーはAWS上で高水準のノード間通信アプリケーションを大規模に実行できる。EFAのカスタムOSとNVIDIA GPUDirect RDMAとの統合により、インスタンス間通信の性能が向上し、低レイテンシーで帯域幅利用率を高めることができる。これは数百台のP5ノードにまたがる深層学習モデル・トレーニングのスケールに不可欠である。
また、両社は、次世代システム設計、冷却技術、ネットワーク拡張性などによるスケール効率を高めるため、将来のサーバー設計に関する共同研究を開始した。