エンジニアリングコンソーシアムのMLCommonsは先頃、MLPerf Trainingベンチマークコンペティションの最新ラウンドの結果を発表した。14の組織から158を越えるAIトレーニングジョブのパフォーマンスメトリクスが提出され、最高値には前回ラウンドに比較して2.3倍の向上が確認されている。
結果の発表はMLCommonsのブログ上で行われた。MLPerf Trainingベンチマークスイートは、コンピュータビジョン(CV)、自然言語処理(NLP)、強化学習(RL)など、さまざまなタスク用の8つのディープラーニングモデルで構成されている。参加者はタスク用のディープラーニングモデルを、モデル精度など一定の品質スコアを達成するまでトレーニングする。これを最小の"ウォールクロック"経過時間で達成することがコンペティションの目標だ。全参加者が同じモデルアーキテクチャをトレーニングするClosed部門では、8タスク中の7つにおいてNVIDIAが最高のパフォーマンスを獲得したが、8番目のタスクでは惜しくもMicrosoft Azureのエントリに敗れている。ほとんどのタスクで前回ラウンドの結果よりもタイムが向上している。2018年に実施された第1回の結果との比較では、30倍以上の向上が見られたベンチマークもあった。ML CommonsエグゼクティブディレクタのDavid Kanter氏は言う。
パフォーマンスの急速な向上は、結果としてマシンラーニングの新たなイノベーションを生み出し、社会に貢献するでしょう。
MLPerf Trainingベンチマークは、さまざまなシステムがMLモデルを短期間にトレーニングする能力を競う、"公平な場"の提供を目的として、2018年にローンチされた。現在のスイートは、ImageNetでの画像分類、KiTS19での画像分割、COCOでのオブジェクト検出、LibriSpeechでの音声認識、Wikipediaを使ったNLP、1TB Click Logsでのレコメンデーションというように、いくつかのタスクと、それに関連するデータセットで構成されている。碁の打ち方を学ぶRLタスクもあり、これはデータセットを必要としていない。タスクにはそれぞれ、品質メトリックと目標とするメトリック値が定義されている。提出されたモデルには複数回のトレーニング実施結果のタイミングデータが含まれており、最高値と最低値を削除した残りのタイムの平均値を、そのエントリの最終結果とする。
複数のシステムでの参加も可能である。各システムはハードウェアリソースとモデル実装のセットとして定義され、システム毎にひとつ以上のタスクに対する結果を持つことができる。コンペティションは、モデルアーキテクチャとハイパーパラメータのレンジを事前に定めたClosedディビジョンと、任意のモデルが可能なOpenディビジョンの2つで行われる。システムはさらに、直接購入あるいはパブリッククラウド経由で使用の可能なコンポーネントのみで構成された"available"、現時点では未公開だが次のMLPerfラウンドまでの公開が義務付けられる"preview"、実験あるいは内部利用を目的としたシステムの"research"に分類される。
Azure、Baidu、Dell、Fujitsu、GIGABYTE、HPE、Inspur、Lenovo、Supermicroなど、大半の参加者がNVIDIAのハードウェアアクセラレータを使用する中、NVIDIA自身も直接、すべてのタスク結果を提出している。GraphcoreとIntel-HabanaLabsは独自のハードウェアを使用したが、ImageNetとNLPの各タスクのみのエントリだった。GoogleはClosedディビジョンには参加せず、OpenディビジョンでSamsungやGraphcoreに対抗して、同社Cloud TPU上でトレーニングした4,800億パラメータのBERTモデルを提出した。同社はブログ記事で、"大規模モデルがもたらすスケーラビリティの問題"に重点を置くために、Closedディビジョンのベンチマークにも参加することを示唆している。
Hacker News上での結果に関する議論では、MLのトレーニング時間の向上がMooreの法則を上回っている理由について意見が述べられている。最適化の成果やハードウェアの向上を指摘する声のある中で、次のような意見もあった。
ニューラルアーキテクチャの研究は、少ないパラメータで高品質なモデルを構築するための、より効率的なアーキテクチャ基礎ブロックを見付けようとしています。特にTransformerアーキテクチャの改善には、現在、数多くの開発が行われています。塵も積もれば山になって、現行モデルよりも大幅に効率のよいものになるでしょう。効率のよいTransformerは同時に帰納的バイアスをもたらすことが多いので、最終的にモデルの品質も向上するはずです。
MLPerf Trainingのルールと各ベンチマーク用のモデルのリファレンス実装がGitHubで公開されている。