BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース AWS、NVIDIA H100 Tensor Core GPUを搭載したEC2 P5eインスタンスの一般提供を発表

AWS、NVIDIA H100 Tensor Core GPUを搭載したEC2 P5eインスタンスの一般提供を発表

原文リンク(2024-09-18)

Amazon Web Services(AWS)は、AI、機械学習、ハイパフォーマンス・コンピューティング(HPC)アプリケーション向けのコンピューティング・インフラを強化するため、NVIDIA H100 Tensor Core GPUを搭載したAmazon EC2 P5eインスタンスを正式にリリースした。

同社によると、前身のEC2 P5インスタンスがすでにパワフルなコンピューティング能力で知られていたが、EC2 P5eインスタンスの導入で、パフォーマンス、コスト効率、スケーラビリティが大幅に改善されるという。

P5eインスタンスは8基のH200 GPUを搭載し、P5インスタンスよりGPUメモリ容量と帯域幅が強化されている。P5eインスタンスは、第2世代のEFAテクノロジーを使用して最大3,200Gbpsのネットワーキングをサポートしており、レイテンシを抑えた大規模処理のためにAmazon EC2 UltraClustersへデプロイされる。

Alt text

(出典:AWS Machine Learningブログポスト)

組織では、OpenAIのGPTGoogleのBERTのような大規模言語モデル(LLM)のトレーニングと推論や、天気予報、ゲノム研究、流体力学モデリングなどの高性能シミュレーションといった、様々な高度なユースケースにP5eインスタンスが活用できる。

AWS Machine Learningブログの著者は、EC2 P5eインスタンスについての記事で以下のように述べている。

H200 GPUに達するP5eインスタンスの高いメモリ帯域幅で、GPUがメモリからのデータフェッチや処理をより迅速に行えるようになります。このため、推論に要するレイテンシーが下がりますが、これは、対話型AIシステムのような、ユーザーが応答までの待ち時間がほぼないことを求めるリアルタイム・アプリケーションにとって非常に重要です。メモリ帯域幅が高いほど、スループットが向上し、GPUは1秒あたりより多くの推論を処理できます。

ユーザーがP5インスタンスを起動する際、AWS Deep Learning AMI (DLAMI)を利用してP5インスタンスをバックアップできる。DLAMIで、MLプラクティショナーやリサーチャーは、事前設定された環境でスケーラブルで安全な分散型MLアプリケーションを迅速に開発するために必要なインフラとツールが得られます。ユーザーは、Amazon Elastic Container Service(Amazon ECS)またはAmazon Elastic Kubernetes Service(Amazon EKS)用に設計されたライブラリを搭載したAWS Deep Learning Containersを使用することで、P5インスタンス上でコンテナ化されたアプリケーションを実行できる。

AzureとGoogle Cloudは、ハイパフォーマンス・コンピューティング(HPC)やAI/MLワークロード向けに設計されたAWS EC2 P5eインスタンスのようなパワフルなインスタンスを提供している。AzureがNVIDIA Tensor Core GPUを搭載したNDv5シリーズの仮想マシンを提供する一方で、Google CloudはNVIDIA GPUを搭載したA3インスタンスを提供している。

Tata Communications社のクラウド・ソリューション担当ディレクターであるSanjay Siboo氏は、以下のようにツイートしている。

生成AIの需要が着実に伸び続けていることから、AWS、Google社、OpenAIなど複数の大手ソフトウェア企業にとって、GPUは、ますます重要なものになっています。

現在、p5e.48xlargeサイズのP5eインスタンスは、EC2 Capacity Blocks for MLを通じて、米国東部(オハイオ州)のAWSリージョンで利用できる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT