「Towards Demystifying Serverless Machine Learning Training (サーバレス機械学習トレーニングの謎を解くために)」と呼ばれる新しい研究は、サーバレスコンポーネント (Azure/GCP Functions、AWS Lamda など) を活用してディープネットワークのトレーニングの実験的分析を提供することを目的としている。提案されたプラットフォーム、LambdaML は、外部ストレージレイヤ (blob、キャッシュ など) を介した中間勾配 (intermediate gradient) の出力を分離することにより、Cirrus をさらに拡張する。
この研究は、ビデオ/画像処理と機械学習 (Cirrus、Stanford GG、UCSD Sprocket など) のための並列化プリミティブを IaaS から FaaS にオフロードするために過去数年間に観察された増加する取り組みの一部だ。
サーバレスプラットフォームでディープラーニングモデルを提供することは一般的な手法であり、特にアクセラレーションハードウェアを必要としない (公式の Azure ドキュメント、AWS ブログなど) 軽量ネットワークでは、多くのクラウドベンダによって公式にサポートされている。トレーニングの場合は、学習アルゴリズムに見られる分散性と集約ステップのため (つまり、バッチで計算された勾配を組み合わせる必要から) に、より困難だ。トレーニングには、ピアノード (Ring-AllReduce など) 間やワーカノードとオーケストレーター (パラメータサーバなど) 間のデータの通信と同期が必要だ。ワーカの数が増えると、分散コンピューティングの制限も適用される。
LambdaML は、2つのディープネットワーク (ResNet50 と MobileNet) と、さまざまな設定のいくつかの古典的な機械学習アルゴリズム (ロジスティック回帰: logistic regression、SVM、および k-means) でベンチマークを実行する。結果は、(ResNet50 が比較的小さい場合であっても) データ転送のオーバーヘッドが原因でネットワークサイズが大きくなると、現在のサーバレスアーキテクチャが不利になることを示している。一方、分散オプティマイザ (ADMM など) による軽量アルゴリズムは、速度とコストに関するトレードオフのバランスをとることで、FaaS で許容可能なスループットが実現される。一般的に、実験ではサーバレスコストが AWS 上での IaaS よりも低くないことも示されている。
この数年で、10億パラメータモデルが大幅に増加した。より大きなモデルのトレーニングでは、より多くのファンクションを使用する必要がある。その結果、従量制の累積コストの増加につながる。一部のクラウドベンダでは、サブスクリプションプランは通常、使用状況に依存するため、ワーカのサイズを増やすことができない場合がある。制限を受けた後に予約プランに切り替える必要があるかも知れない。マネージドコンピューティングサービスとして、サーバレスは、将来より大きなモデルをトレーニングするための参入障壁を下げる可能性がある。
MLSys は、機械学習システムのために設立された新しいカンファレンスだ。このトピックの詳細については、その議事録が優れた情報源になるだろう。過去数年間に発行されたいくつかの記事を引用しているリストが興味深いと思われるかも知れない。ZIP ML 研究プロジェクトとそのモノグラフには、さまざまなトレーニング設定の最適化に関するさまざまな記事も掲載されている。