最近のGTC会議で、NVIDIAは、AIコンピューティング用の次世代プロセッサを発表した。H100 GPUとGrace CPUスーパーチップである。H100はNVIDIAのHopperアーキテクチャをベースとしており、そこにはAIモデルのトレーニングを高速化するためのTransformer Engineが含まれている。Grace CPUスーパーチップは144個のArmコアを備えており、SPECrate 2017_int_baseベンチマークでNVIDIAの現在のデュアルCPU製品の性能を上回っている。
NVIDIAの創設者兼CEOのJensen Huang氏は基調講演でその発表をした。AIトレーニングを加速するためのHopperアーキテクチャには革新的な機能が含まれている。例えば、1秒あたりの浮動小数点演算処理(FLOPS)性能が向上した高速Tensorコアや、セキュリティとプライバシーを向上させるNVIDIAのコンフィデンシャルコンピューティングテクノロジなどがある。このアーキテクチャをベースに構築されたH100 GPUは、PCI Express Gen 5(PCIe 5)とHBM3をサポートする最初のGPUである。Grace CPU Superchipは2つのCPUチップを含むシングルソケットパッケージである。この2つのCPUチップは、NVIDIAの高速NVLink-C2Cテクノロジを通して接続される。Huangの基調講演では、NVIDIAの新しいチップを「世界のAIインフラストラクチャのエンジンであり、企業がAI主導のビジネスを加速するために使用するもの」と位置付けている。
Transformerディープラーニングモデルは、多くのAIタスク、特にGPT-3などの大規模な言語モデルで一般的に選択されている。これらのモデルのトレーニングには、大量のデータセットと、数週間ではないにしても何日もの計算時間が必要である。H100 GPUには、8ビット(FP8)と16ビット(FP16)の浮動小数点演算を動的に混合できるTransformer Engineが含まれている。H100は、より低い精度で動作し、全体的なFLOPSの向上をサポートすることで、前世代のAmpere GPUと比較して桁違いの高速化を実現できる。全体として、NVIDIAは、175BパラメーターGPT-3モデルのトレーニングを6倍、エキスパートモデルの395Bパラメーター混合で最大9倍高速化できると述べている。計算時間は7日から20時間に短縮されている。
このチップには、新たに動的計画法命令(DPX)も含まれている。これにより、動的計画法アルゴリズムがAmpereと比較して最大7倍高速化される。ルーティングの最適化やタンパク質フォールディングなどのアプリケーションでパフォーマンスが向上する。クラウド環境でのマルチテナント操作をサポートするために、H100にはセキュアマルチインスタンスGPU(MIG)とコンフィデンシャルコンピューティングテクノロジが含まれている。これにより、最大7つの仮想GPUに分割することができ、そこでテナントデータのプライバシーを維持することができる。
Grace CPU Superchipは、昨年発表されたGrace Hopper Superchipの次のイテレーションである。Grace CPUとHopperベースのGPUを1つのチップに組み合わせたものである。新しいチップは2つのGraceCPUを組み合わせたものである。この2つはNVIDIAのNVLink-C2Cインターコネクトを使って接続される。各CPUはArm v9アーキテクチャをベースとしており、1TB/秒のメモリ帯域幅を備え、500Wの電力しか消費しない。このチップは、Omniverse、NVIDIA AI、NVIDIAHPCを含むすべてのNVIDIAソフトウェアスタックをサポートする。NVIDIAのConnectX-7 NICを使うと、チップは最大8つの外部HopperベースのGPUをサポートできる。
何人かのユーザがHacker Newsのスレッドでこの発表についてコメントしている。一人が次のように記述している。
NVIDIAは、データセンター製品の垂直統合を続けている。彼らはInfiniBandを入手するためにMellanoxを買収した。彼らはARMを買収しようとしたが、それはうまくいかなかった。しかし、とにかく彼らはCPUを構築、バンドルしている。コンピューティングの面ではるかに前を進んでいるとき、あなたを阻むもののすべては周辺機器となるため、彼らは完全なソリューションをまとめようとしている。
NVIDIAのGPUは、AI処理を加速するための一般的な選択肢である。今年の初めに、InfoQは最新のMLPerfベンチマークについて報告した。そこで、NVIDIAは8つのタスクのうち7つで最高の結果を載せている。