Amazonは最近、Habana LabsのGaudiアクセラレーターを搭載したEC2 DL1インスタンスの一般向け提供を発表した。新しいインスタンスは、コンピュータービジョン、自然言語処理、自動運転車の認識、推奨エンジンなどのユースケース向けの深層学習モデルのトレーニングに対して、より優れた価格パフォーマンスを提供する。
DL1インスタンスはDL1.24xlargeサイズでのみ利用できる。アクセラレータごとに32 GBの高帯域幅メモリ(HBM)を備えた8つのGaudiアクセラレータ、Intel Xeonスケーラブルプロセッサ、768 GBのメモリ、400 Gbpsのネットワークスループット、および4TBのローカルストレージを持つ。
AWSのバイスプレジデント兼チーフエバンジェリストであるJeff Barr氏は、新しいインスタンスの利点について次のように説明している。
今では、ディープラーニングのアプリケーションはかつてないほど増えています。自然言語処理、レコメンデーションシステム、画像認識、ビデオ認識などはすべて、高品質で十分にトレーニングされたモデルのメリットを享受できます。(...)トレーニングプロセスは数学とプロセッサが集中的に必要となります。トレーニングに使用されるシステムのほぼすべてのパーツに要求が課されます。例えば、GPUや他のトレーニングアクセラレータ、ネットワーク、ローカルストレージやネットワークストレージなどです。
新しいインスタンスには、Habana SynapseAI SDKが含まれる。これはTensorFlowおよびPyTorch機械学習フレームワークと統合された。これは元々は、re:Invent 2020でAWSのCEOであったAndy Jassy氏によって発表されていた。CRNのシニアアソシエイトエディターであるDylan Martin氏は次のようにコメントしている。
これは明らかに、Intelが当初計画していたよりもはるかに遅れています。昨年12月、Intelは、これらのインスタンスは2021年前半に利用可能になると発表していました。
出典: https://aws.amazon.com/blogs/aws/new-ec2-instances-powered-by-gaudi-accelerators-for-training-deep-learning-models/
Intelが所有するHabanaは、「最大で40%優れた価格パフォーマンス」のアピールと、どのようにして開発者が新しいインスタンスを評価できるかを説明する記事を公開した。
AWSは、p4d、p3dn、p3 GPUベースのインスタンスと共に、DL1のDL1オンデマンド時間料金を公開しています。エンドユーザが価格パフォーマンスを自分で評価する簡単な方法があります。Nvidia on NGCとHabanaの両方が提供する最新のTensorFlow Dockerコンテナーを取得し、(...)それぞれのインスタンスで実行して、トレーニングスループットと時間単位の料金を比較するんです。
Habanaは、Gaudiでのモデルの実行と新しいインスタンスへの移行をサポートするために、TensorFlowユーザガイド、PyTorchユーザガイド、Gaudiモデル移行ガイドをリリースした。HabanaAI Repoには、セットアップ手順、リファレンスモデル、学術論文が含まれている。
DL1がHabana Gaudiアクセラレータを使用する最初のインスタンスである場合でも、機械学習ワークロードのインスタンスを提供するクラウドプロバイダはAmazonだけではない。Google Cloudは最近第4世代のtensorプロセッシングユニットをリリースしている。AzureにはNvidia TeslaT4を搭載したNCas_T4_v3仮想マシンがある。これはAIと機械学習の処理用に設計されたAzure GPUファミリーに最近追加された。
新たなAmazon EC2 DL1インスタンスは現在、米国東部(バージニア州北部)、米国西部(オレゴン)リージョンでのみ利用可能だ。オンデマンドで1時間あたり13.10米ドルの費用がかかる。