ビッグデータ処理および分析エンジンApache Sparkを背景として生まれた会社であるDatabricksは、オープンソースの機械学習プラットフォームMLflowをLinux Foundationに提供している。この発表は、Apache SparkとMLflowプロジェクトの作成者であるMatei Zahariaによって、グローバルなバーチャルイベントとして開催された直近のSpark AI Summit 2020 Conferenceでの基調講演で行われた。
MLflowは、MLモデル開発の複雑なプロセスでデータサイエンティストと開発者を支援するために作成された。これには通常、機械学習モデルの構築、トレーニング、調整、デプロイ、管理の手順が含まれる。MLflowは、データの準備から本番環境へのデプロイまで、MLライフサイクル全体を管理する。これには、実験の追跡、実行が再現可能なコードのパッケージ化、モデルの共有とコラボレーションが含まれる。そして、あらゆるMLライブラリと連携するように設計されている。
ZahariaはMLflowをLinux Foundationに提供する動きは次のようなものであると述べた。つまり、MLエンジニアリングのベストプラクティスをオープンで協調的でエンドツーエンドの標準プラットフォームに組み込むように、機械学習コミュニティを招待するものである。Linux Foundationは、オープンなガバナンスモデルが付属したベンダーニュートラルホームを提供するものであり、MLflowプロジェクトの採用と貢献を促進するのに役立つ。
Linux Foundationの戦略プログラム担当副社長、Michael Dolan氏:
コミュニティへの関与が着実に増加していることは、データチームが将来の機械学習プラットフォームを構築する必要があることを示している。採用率は、機械学習のライフサイクルを標準化するためのオープンソースアプローチの必要性を示している。
MLflowは現在4つのコンポーネントを提供している。
そこにはビルトインで、いくつかのディープラーニングと、Tensorflow、PyTorch、scikit-learn、H2O.ai、Amazon SagemakerなどAIフレームワークとのインテグレーションがある。MLflowを使用し、貢献している組織もいくつかある。そこには、Microsoft、Splicemachine、ワシントン大学、アクセンチュアなどがいる。
フレームワークの最新バージョン(v1.9.1)は先月リリースされた。MLflowフレームワークの詳細については、ドキュメント、Githubプロジェクト、コミュニティページをご覧ください。