InfoQ ホームページニュース AWSとNVIDIA、ジェネレーティブAIを高速化する次世代EC2 P5インスタンスでコラボレーションを発表

AWSとNVIDIA、ジェネレーティブAIを高速化する次世代EC2 P5インスタンスでコラボレーションを発表

2023年3月30日読了時間 3 分

作者：

Daniel Dominguez
Software Product Manager | Machine Learning Specialist

翻訳者

Tomoo Morikawa
Engineer Manager
Ayako Ueno

AWSとNVIDIAは、大規模言語モデルのトレーニングと高度なジェネレーティブAIアプリケーションの開発に特化した拡張性の高いオンデマンドAIインフラの開発を発表した。このコラボレーションはますます複雑になるAI関連の要求に対してもっとも最適化された効率的なシステムを構築することを目指している。

このコラボレーションでは最新のAmazon Elastic Compute Cloud（Amazon EC2）P5インスタンスがNVIDIA H100 Tensor Core GPUによって駆動され、AWSの先進的なネットワーキングとスケーラビリティが提供される。深層学習モデルのトレーニングで20exaFLOPSの計算性能が可能となる。

アクセラレーテッド・コンピューティングとAIがちょうど良いタイミングで到来した。アクセラレーテッド・コンピューティングは企業が低コストで多くのことを行うために、コストと電力を削減しながらステップファンクションの高速化を提供する。NVIDIAの創業者兼CEOであるJensen Huang氏は、「ジェネレーティブAIは企業が自社製品やビジネスモデルを再構築し、破壊される側ではなく、破壊する側になることを目覚めさせた。」と述べる。

ユーザーはP5インスタンスによりAWSの2世代目のElastic Fabric Adapter（EFA）ネットワークを活用した20,000個のH100 GPUまでスケールアップでき、スーパーコンピュータクラスの性能にオンデマンドでアクセスできる。これはAWS EFAによって提供される3,200 Gbpsの低レイテンシーで高帯域幅のネットワーク・スループットを活用した初のGPUベースのインスタンスである。

ユーザーはEC2 UltraClusterで最大20,000個のH100 GPUをスケールアップでき、P5インスタンスのおかげでAI用のスーパーコンピュータクラスの性能にオンデマンドでアクセスできる。このインスタンスは、AWSの第2世代Elastic Fabric Adapter (EFA) ネットワークの恩恵を受ける初のGPUベースのインスタンスとなり、低レイテンシー、高帯域のネットワークスループットを3200Gbpsで提供する。

AWSとNVIDIAは、AIやHPCのインフラを構築するために10年以上にわたってコラボレーションしており、その結果【P2、P3、P3dn、P4d（e）インスタンス】を開発した。最新のP5インスタンスは、NVIDIA GPUを搭載したAWS提供の第5世代で、音声認識、コード生成、動画/画像生成などの要求の高いジェネレーティブAIアプリケーションのための複雑なLLMやコンピュータビジョンモデルのトレーニング用に最適化されている。

Amazon EC2 P5インスタンスは、EC2 UltraClustersと呼ばれる強力なハイパースケールクラスタに配置され、最高性能の計算、ネットワーク、ストレージリソースで構成されている。これらのクラスタは、世界でもっとも強力なスーパーコンピュータであり、ユーザーは複雑な複数ノードの機械学習トレーニングや分散HPCワークロードを実行可能となる。AWS EFAによるペタビットスケールのノンブロックキング・ネットワークにより、ユーザーはAWS上で高水準のノード間通信アプリケーションを大規模に実行できる。EFAのカスタムOSとNVIDIA GPUDirect RDMAとの統合により、インスタンス間通信の性能が向上し、低レイテンシーで帯域幅利用率を高めることができる。これは数百台のP5ノードにまたがる深層学習モデル・トレーニングのスケールに不可欠である。

また、両社は、次世代システム設計、冷却技術、ネットワーク拡張性などによるスケール効率を高めるため、将来のサーバー設計に関する共同研究を開始した。

作者について

Daniel Dominguez

Daniel is the Managing Partner at SamXLabs an AWS Partner Network company. He has over 13 years of experience in software product development for startups and Fortune 500 companies. Daniel holds a Machine Learning specialization from the University of Washington. He is passionate about leveraging AI and cloud computing to create innovative solutions. As an AWS Community Builder in the Machine Learning tier, Daniel is committed to sharing knowledge and driving innovation in software products.

もっと見るより少なく

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

We protect your privacy.

Login with:

アカウントをお持ちでない方

AWSとNVIDIA、ジェネレーティブAIを高速化する次世代EC2 P5インスタンスでコラボレーションを発表

作者について

Daniel Dominguez

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連するコンテンツ

スポンサードコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。