MIT、香港大学、浙江大学の研究チームは、自動機械学習プロセスを視覚化して制御するためのツールであるATMSeerをオープンソース化した。
機械学習(ML)の問題を解決するには、単なるデータセットとトレーニング以上のものが必要である。どのMLタスクに対しても、使用できるさまざまなアルゴリズムがある。また、各アルゴリズムには、調整可能なハイパーパラメーターが多数ある。ハイパーパラメータの値が異なると精度が異なるモデルが生成されるため、MLの専門家は通常、特定のデータセットに対して複数のハイパーパラメータ値のセットを試して、最良のモデルを生成するハイパーパラメータを見つけようとする。セットごとに個別のトレーニングジョブとモデル評価プロセスを実行する必要があるため、これには時間がかかる。もちろん、それらは並行して実行できるが、ジョブをセットアップして起動し、結果を記録する必要がある。さらに、ハイパーパラメーターに特定の値を選択するときには、特に任意の数値を取ることができるものには、多少の推測が必要になる可能性がある。もし、2.5や2.6がよい結果となった場合、2.55はよりよいか。2.56や2.54はどうか。
自動機械学習、またはAutoMLと入力してください。これらは、ハイパーパラメータの選択と評価(およびデータのクリーンアップや機能工学などの他の一般的なMLタスク)を自動化するための手法とツールである。Google Cloud PlatformとMicrosoft Azureはどちらも商用のAutoMLソリューションを提供しており、auto-sklearnやAuto-Kerasなどのオープンソースパッケージもいくつかある。
MITのヒューマンデータインタラクションプロジェクト(HDI)は最近Auto Tune Models(ATM)と呼ばれるAutoMLライブラリをオープンソース化した。ATMは、アルゴリズムとハイパーパラメータを自動的に選択する。これにより、専門家はデータのクリーンアップと機能エンジニアリングの上流のタスクに集中することができる。ATMには、最良のモデルを検索して結果の説明を取得するためのPythonインターフェイスがある。
最近の論文で、MIT、香港大学、浙江大学の研究者らは、ATM上で動作し、検索プロセスと結果を視覚化するグラフィカルUIであるATMSeerについて説明した。さらに、ユーザはモデル検索プロセスをリアルタイムで制御およびガイドできる。目標は「AutoMLの透明性を高める」ことである。特に、著者は、AutoMLプロセスがハイパーパラメータの領域を十分に調査し、より優れた性能を発揮する可能性のあるモデルを見落とさないことでユーザの信頼を高めることを望んでいる。
ATMやATMSeerには、Azureなどの商用ソリューションと比較していくつかの制限がある。1つは、ATMとATMSeerは分類モデルのみをサポートするが、Azureは分類、回帰、時系列予測をサポートする。Azureは、正規化や欠損値の補完などの機能エンジニアリングやデータのクリーンアップタスクも実行できる。
MITはこの作業を「自動機械学習のブラックボックスを解体する」と述べているが、Hacker Newsのコメンターはこう述べている。
AutoMLのブラックボックスに対する洞察が少し提供されます。AutoMLが検索するMLブラックボックスについての多くの洞察は提供されません。本当に必要とされているのは、より広いクラスの専門家にとってより透明で予測可能な効果的なMLアルゴリズムです。