BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Agile Igniteを使用した継続的ディープラーニング - Denis Magda氏の講演より

Agile Igniteを使用した継続的ディープラーニング - Denis Magda氏の講演より

原文(投稿日:2019/09/16)へのリンク

先日のApacheCon North Americaで、Denis Magda氏が、インメモリデータグリッドのApache Igniteを使用した継続的マシンラーニング(continuous machine learning)について講演した。Igniteは、データを格納した同じクラスタ内でトレーニングとホストモデルを実行することで、マシンラーニングパイプラインを簡素化すると同時に、新たなデータが利用可能になった時に"オンライン"トレーニングを実行して、モデルを漸進的に改善することもできる。

GridGainの製品管理担当副社長であるMagda氏の講演は、大規模なデータセットでマシンラーニングを実行する場合の問題点、特にストレージロケーションからトレーニングを実行するプロセッサへと、ネットワークを経由してデータを移動する際のレイテンシに関する説明から始まった。トレーニング完了後のモデルを本番システムにデプロイしたり、新たなデータが収集された時には定期的に再トレーニングすることも必要となる。Igniteは、データをホストするものと同じコンピュータ上でコードを実行することによって、時間を要する抽出-変換-負荷(ETL)ステップを必要としないマシンラーニングモデルのトレーニング、デプロイ、更新を可能にする。

Igniteは元々、GridGaiがオープンソースとして公開した、"メモリ中心の分散データベース、キャッシュ、および処理プラットフォーム"である。マシンラーニングシナリオで使用される主要な機能は、データストレージと計算グリッドである。これにより、データをホストするマシン上でのマシンラーニングトレーニングの実行を可能にしている。Apache Sparkなど他の多くのシステムでは、マシンラーニングを開始する前に、データセットを抽出し、そのホームレコードからシステムにロードする必要がある。これは非常に時間を要するプロセスだ。Igniteでは、データをトレーニングコンピュータに移動するのではなく、トレーニングするコンピュータ処理をデータに移行する。さらに、データを多数のサーバに分割することによって、トレーニングを並行して実行し、より速く完了することも可能だ。

Igniteは、線形回帰、k-meansクラスタリング、決定木、サポートベクタマシン(SVM)など、多くの一般的なMLアルゴリズムを提供している。"一般的な"多層パーセプトロンも実装しているが、ほとんどの深層学習タスクにおいて、開発者はIgniteのTensorFlow統合の使用を選択するものと思われる。Igniteは、"分散マルチワーカートレーニングのスタンドアロンクライアントモードに基づいた"、TensorFlowによる分散トレーニングをサポートする。さらに、そのレジリエントなアーキテクチャを使ってクラスタノードの異常を監視し、再起動することにより、マシンの障害が原因でトレーニングが中断されることを回避する。

トレーニングされたモデルは保存することができる。保存したモデルを使用した推論の実行や、新たなデータが収集された時にモデルの再トレーニングを行うことが可能である。Ignite MLのモデルは"アップデート"インターフェースをサポートしており、"トレーニング済のモデルの状態を使用して、新たなデータでそのトレーニングされたモデルの再学習を実施する"ことが可能である。モデルが使用されている状態(つまり"オンライン")でアップデートされることから、この方法は"オンラインラーニング"と呼ばれている。ただし、IgniteのすべてのMLアルゴリズムがこの機能をサポートしている訳ではなく、例えば、決定木ではサポートされていない。更新前に新しいデータのバッチが必要なアルゴリズムもある。例えばk-meansでは、少なくともk個のサンプルによるバッチが必要である。

Magda氏は最後に、SparkとXGBoostからモデルをインポートする機能や、ML機能をフルサポートするPython APIなど、今後提供予定の機能をあげて講演を終えた。現在のIgniteには、生のTCPソケットを介してバイナリクライアントプロトコルを使用する"シン(thin)"Pythonクライアントが用意されているのみだ。さらに氏は、IgniteがApacheの"トップ5"プロジェクトであり、2番目にアクティブなdevメーリングリストと3番目にアクティブなユーザメーリングリストを持っていることも紹介した。
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT