Amazon Web Services(AWS)は、AI、機械学習、ハイパフォーマンス・コンピューティング(HPC)アプリケーション向けのコンピューティング・インフラを強化するため、NVIDIA H100 Tensor Core GPUを搭載したAmazon EC2 P5eインスタンスを正式にリリースした。
同社によると、前身のEC2 P5インスタンスがすでにパワフルなコンピューティング能力で知られていたが、EC2 P5eインスタンスの導入で、パフォーマンス、コスト効率、スケーラビリティが大幅に改善されるという。
P5eインスタンスは8基のH200 GPUを搭載し、P5インスタンスよりGPUメモリ容量と帯域幅が強化されている。P5eインスタンスは、第2世代のEFAテクノロジーを使用して最大3,200Gbpsのネットワーキングをサポートしており、レイテンシを抑えた大規模処理のためにAmazon EC2 UltraClustersへデプロイされる。
(出典:AWS Machine Learningブログポスト)
組織では、OpenAIのGPTや GoogleのBERTのような大規模言語モデル(LLM)のトレーニングと推論や、天気予報、ゲノム研究、流体力学モデリングなどの高性能シミュレーションといった、様々な高度なユースケースにP5eインスタンスが活用できる。
AWS Machine Learningブログの著者は、EC2 P5eインスタンスについての記事で以下のように述べている。
H200 GPUに達するP5eインスタンスの高いメモリ帯域幅で、GPUがメモリからのデータフェッチや処理をより迅速に行えるようになります。このため、推論に要するレイテンシーが下がりますが、これは、対話型AIシステムのような、ユーザーが応答までの待ち時間がほぼないことを求めるリアルタイム・アプリケーションにとって非常に重要です。メモリ帯域幅が高いほど、スループットが向上し、GPUは1秒あたりより多くの推論を処理できます。
ユーザーがP5インスタンスを起動する際、AWS Deep Learning AMI (DLAMI)を利用してP5インスタンスをバックアップできる。DLAMIで、MLプラクティショナーやリサーチャーは、事前設定された環境でスケーラブルで安全な分散型MLアプリケーションを迅速に開発するために必要なインフラとツールが得られます。ユーザーは、Amazon Elastic Container Service(Amazon ECS)またはAmazon Elastic Kubernetes Service(Amazon EKS)用に設計されたライブラリを搭載したAWS Deep Learning Containersを使用することで、P5インスタンス上でコンテナ化されたアプリケーションを実行できる。
AzureとGoogle Cloudは、ハイパフォーマンス・コンピューティング(HPC)やAI/MLワークロード向けに設計されたAWS EC2 P5eインスタンスのようなパワフルなインスタンスを提供している。AzureがNVIDIA Tensor Core GPUを搭載したNDv5シリーズの仮想マシンを提供する一方で、Google CloudはNVIDIA GPUを搭載したA3インスタンスを提供している。
Tata Communications社のクラウド・ソリューション担当ディレクターであるSanjay Siboo氏は、以下のようにツイートしている。
生成AIの需要が着実に伸び続けていることから、AWS、Google社、OpenAIなど複数の大手ソフトウェア企業にとって、GPUは、ますます重要なものになっています。
現在、p5e.48xlargeサイズのP5eインスタンスは、EC2 Capacity Blocks for MLを通じて、米国東部(オハイオ州)のAWSリージョンで利用できる。