先日のre:InventカンファレンスでAmazon Web Services(AWS)は、Amazon SageMaker Stduioを発表した。コード編集、トレーニングジョブのトラッキングとチューニング、デバッグをすべてひとつのWebベースUIに搭載した、マシンラーニング(ML)のための統合型開発環境(IDE)だ。
ブログ記事では、AIとMLのエバンジェリストであるJulien Simon氏が、新サービスの概要について説明している。Amazon SageMaker Studioは、同じくre:Inventで発表されたAmazon SageMaker Notebooks、Amazon SageMaker Experiments、Amazon SageMaker Autopilot、Amazon SageMaker Debugger、Amazon SageMaker Model Monitorなどの新しいMLサービスをインテグレーションしている。Simon氏によれば、
[SageMake Studioは]素早い変更、結果の監視、迅速なイテレーションを可能にし、高品質なMLソリューションと、市場投入までの時間の削減を実現します。
SageMaker Stduioは、Project Jupyterによる次世代インターフェースであるJupyterLabをベースにしている。Project Jupyterのノートブックは、データ科学者がデータやMLアルゴリズムの研究に使用する、最も一般的な環境のひとつである。SageMakerは以前からノートブックインスタンスをサポートしていたが、ユーザはAWSにログオンして、仮想マシンをプロビジョンする必要があった。新サービスはノートブックの"秒単位"でのローンチをうたうと共に、AWSのシングル・サインオン(SSO)サービスとの統合による複数ユーザでの共有をサポートし、AWSにホストされたノートブックにAWS固有の認証情報を必要とせずにアクセス可能にする。
SageMaker StudioにはSageMaker Experimentsサービスとのインテグレーションが含まれている。SageMaker Experimentsは、関連する多数のトレーニングジョブの管理を支援する目的で設計されたサービスである。これは、最もパフォーマンスのよいモデルを実現するハイパーパラメータを探索する場合に問題となるものだ。SageMakerでは2018年にハイパーパラメータチューニングジョブが導入されているが、SageMaker Experimentsでは、特定のコンフィギュレーションとハイパーパラメータのセットによるトレーニングジョブであるトライアル(trial)と、関連するトライアルをセットにしたエクスペリメント(experiment)という2つのコアコンセプトを導入することによる抽象化層を提供している。SageMake Studioとのインテグレーションにより、新たなエクスペリメントの作成が簡単になるだけでなく、モデル精度などのグラフィカルなメトリクスとして、トライアルの結果を可視化することも可能になった。さらにSageMaker Studioには、データセットを格納したファイルを指定するだけで、エクスペリメントを自動的に生成および実行することのできるSageMaker Autopilotもインテグレーションされている。Autopilotはデータのプリプロセスと特徴エンジニアリング(feature-engineering)の各ジョブとして実行することで、ハイパーパラメータチューニングジョブを実行して最もフィットするモデルを探索する前に、最もよいモデルアーキテクチャを推測する。
SageMaker Debuggerは、モデル状態を表すテンソル(tensor)データをトレーニングライフサイクルを通じて記録することによって、モデルトレーニングを可視化する、新たなサービスである。トレーニングジョブの失敗によって発生する問題(勾配消滅(vanishing gradient)など)の検出と、そのトラブルシュートを支援する目的で設計されたこのDebuggerは、TensorFlowやPyTorch、MXNetといった一般的なディープラーニングフレームワークと、TensorFlowのTensorBoardフォーマットをサポートする。これによってSageMaker Studioでは、損失曲線(loss curve)などのデータの可視化と、デバッグログの調査が可能になっている。
最後のインテグレーションであるSageMaker Model Monitorは、運用中のMLモデルの品質をモニタする新サービスである。SageMakerでは以前より、新たなデータオブザーベーションをインプットに、モデルプレディクションをアウトプットにするWebサービスをアウトプットにする推論用エンドポイントによる、迅速なWebデプロイメントをサポートしていた。新サービスでは、入力データポイントを解析し、履歴的なトレンドに従っていることを確認することによって、"データの乱れ(data drift)"を監視することができる。SageMaker Studioでは、このModel Monitorをインテグレーションすることで、データメトリクスとルール違反のビジュアライゼーションを提供する。
Amazon SageMakerは2017年のre:Inventで初めて発表されてから、データの自動ラベリングを行うSageMaker Ground Truthや、エッジサービス上でモデルデプロイメントを行うSageMaker Neoを含む、いくつかの新機能が追加された。今年のre:Inventでの発表について、Redditのあるユーザは、次のようにコメントしている。
Autopilotは ... セルフサービスに特化した大企業としては手間のかからない手段ですから、これが追加されたのは理にかなっています。[SageMaker] Studioは、DominoやCloudera Data Science Workbenchなどが提供する、より従来的なデータサイエンスプラットフォームエクスペリエンスへの一歩です。将来的にどのような改善が行われるのか、興味深いところです。Model Monitorはいい感じですね。
Amazon SageMaker Studioは、AWS US-East-2(オハイオ)リージョンでプレビューとして提供されている。