BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース GoogleがCloud AIプラットフォームパイプラインのベータ版を発表

GoogleがCloud AIプラットフォームパイプラインのベータ版を発表

原文(投稿日:2020/03/24)へのリンク

Google Cloud Platform(GCP)は最近、オープンソーステクノロジーであるTensorFlow Extended(TFX)とKubeflow Pipelines(KFP)を活用する機械学習(ML)ワークフローを自動化および管理するための新製品であるCloud AI Platform Pipelinesのベータ版を発表した。

最近のブログ投稿で、製品マネージャーのAnusha Ramesh氏とデベロッパーアドボケイト(Google外の開発者に使ってもらうよう啓発活動する役割)であるAmy Unruh氏が、製品とその機能の概要を説明した。 Cloud AI Platform Pipelinesは、生データの取り込みからモデルのトレーニングと評価、本番環境でのモデル推論の提供までのライフサイクルにわたるエンドツーエンドのMLワークフローの管理の問題を取り扱っている。新製品には、ワークフローの構築、ワークフローのアーティファクトとリネージの追跡のためのツールが含まれている。また、BigQueryDataflowなどの他のGCPサービスと統合する「エンタープライズ対応」のワークフロー実行インフラストラクチャが含まれている。Ramesh氏とUnruh氏は次のように述べている。

Cloud AI Platform Pipelinesは、モニタリング、監査、バージョントラッキング、再現性とともに、堅牢で反復可能な機械学習パイプラインをデプロイする方法を提供します。そして、エンタープライズ対応の、インストールが簡単で、安全な実行環境をMLワークフローに提供します。

Cloud AI Platform Pipelinesは、Google Kubernetes Engine(GKE)クラスターで実行されるTensorFlow Extended(TFX)およびKubeflow Pipelines(KFP)のマネージドな実装である。TFXは、コアコンセプトがパイプラインである抽象化レイヤーである。パイプラインとは、調整、組織化が必要な一連のデータ変換ステップ(パイプラインコンポーネント)である。コンポーネント間で転送されるデータは、アーティファクトと呼ばれる。KFPはオーケストレータであり、GKEクラスタのポッドでパイプラインの各コンポーネントを実行する。TFXは、MLメタデータ(MLMD)のデータストアも定義する。これにより、パイプラインの履歴とバージョン、およびパイプラインによって生成されたアーティファクトを追跡できる。Cloud AI Platform Pipelinesは、TFX高レベルSDKと低レベルKFP SDKの2つのSDKをサポートする。ただし、Googleではこの2つを1つのTFX SDKに統合する予定である。

Google Cloud AI Platform Pipelines Architecture

ソース: https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-ai-platform-pipelines

TFXは、KDD 2017で発表された論文で最初にGoogleによって説明された。これは、データ分析と変換、モデルのトレーニングと評価、本番環境における推論を含むMLプロセスのすべてのフェーズを含むエンドツーエンドのMLプラットフォームを構築するGoogleの取り組みの結果を文書化したものである。元々の実行インフラストラクチャはApache Beamであった。これはそれ自体がGoogleのFlumeに基づいており、現在はGoogle Cloud Dataflowを強化している。TFXは引き続きBeamを使用してデータ並列処理を定義するが、オーケストレーションエンジンとしてKubeflowとApache Airflowもサポートするようになった。Airflowは、別のGCP製品であるCloud Composerを支えるテクノロジーである。

AirflowとCloud Composerは汎用のワークフローオーケストレーションテクノロジーであり、過去にMLワークフローを管理することを目的としてGoogleから推奨されている。 2018年、GoogleはKubernetesをターゲットとしたML固有のプラットフォームとしてKubeflowをオープンソース化した。Spotifyは最近、それを標準のMLプラットフォームとして採用し、クラスターを作成するためのTerraformテンプレートをオープンソース化した。Googleが提供する新しいCloud AI Platform Pipelinesは、GKEクラスタを管理することで、作業の多くを抽象化する。Hacker Newsのディスカッションで、1人のユーザーが述べた

MLパイプラインエコシステムの戦いはエンジンであり、APIではありません。Beam vs [Apache] Sparkでした。現在、Googleは方針を変えており、分散処理とSparkベースのMLパイプラインを備えたKubernetes上のTensorFlowであると述べています。

Tensorflow ExtendedKubeflow Pipelinesの両方のソースコードは、GitHubで入手できる。

この記事に星をつける

おすすめ度
スタイル

BT