BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Databricks MLflowインテグレーションの一般供与が開始

Databricks MLflowインテグレーションの一般供与が開始

原文(投稿日:2019/05/23へのリンク

Databricksは先頃、データエンジニアリング及びそれ以上のサブスクリプション層を対象に、DatabrikノートブックとMLflowのインテグレーションの一般供与を開始した。これによってMLflowの機能が、Databrickノートブックおよびジョブの機能に結合される。Databricksは2018年6月に、まずMLflowをオープンソースプロジェクトとして立ち上げた後、独立したスタンドアロンのコマンドラインツールとして供用を続けてきた。

MLflowは主として、実験追跡(experiment tracking)、プロジェクト、MLflowモデルという3つの機能を提供する。各機能は、Databricksオンラインサービスの有無にかかわらず利用可能だが、Databricksと統合された場合と統合されていない場合とでは、表現方法が異なる。

MLflowの実験追跡では、MLflowの実行状態を格納するロケーションが必要となる。MLflowコマンドラインツールには、実行状態を格納する追跡サーバが組み込まれており、実行結果の格納にローカルファイルシステムを使用することが可能だが、実行の保存を管理する責任自体はユーザにある。Databrickは、Databrickノートブックと統合された実験追跡サーバを提供することで、ユーザによる実行情報の管理を不要にする。さらにDatabrickでは、実験の分析結果が記録されるたびに、ノートブックのバージョンとして保存する。実験結果を探索するユーザーインターフェースも提供されており、MLflowコマンドラインツールからアクセスする場合のスタンドアロンUIと同様に動作する。

MLflowは、プロジェクトとして定義された実行条件での反復的な実行が可能な、構造化されたコンフィギュレーションの方法を提供している。gitfレポジトリに適切な設定ファイルを追加することでプロジェクトとして使用可能とし、Conda、Docker、あるいはシステム環境といった環境をサポートする。Databricksには、Databrickクラスタ上でプロジェクトをジョブとして実行する機能が追加されている。ユーザはまず、Databricksアカウントで実験を作成する必要がある。作成したプロジェクトは、Databrickのジョブおよび実験を対象とするようなMLflowコマンドから実行することが可能だ。

MLflowは、実験の実行結果をモデルとして保存する。大規模なモデルを格納する実験では、保存先に外部ストレージを指定することができる。生成されたモデルは、Databrickノートブックまたはジョブ内から、MLflow APIを使用して呼び出すことが可能だ。ユーザは、自分のノートブック内で呼び戻したモデルを使って、Apache Spark UDFによる予測の実施や、AWS SagemakerMicrosoft Azure MLといった外部サービスにモデルをデプロイすることができる。

DatabricksのチーフテクノロジストであるMatei Zaharia氏は、バージョン1.0で登場する新機能として、マルチステップワークフローとモデルレジストリを発表した。発表では各機能のデモを行うとともに、多段階のワークフローを視覚化し、結果のモデルを登録するユーザーインターフェースが公開された。モデルを登録した後は、新たなユーザーインターフェイスを介してモデルを展開し、追跡することができる。

この記事に星をつける

おすすめ度
スタイル

BT