Microsoftが、インタラクティブなデータ探索、モデリング、レポーティングのための2つの新しいデータサイエンスツールをリリースした。IDEAR (Interactive Data Exploration, Analysis and Reporting) と AMAR (Automated Modeling and Reporting) と呼ばれるデータサイエンスユーティリティは、プロジェクトにおける特定のタスクをデータサイエンスチームが再利用できるようにする。
データサイエンスチームは、データスキーマ、データ要素の欠落、個々の変数の分布と変換、データ特有のクラスタリングパターン、機械学習(ML)モデルの性能など、データに関する質問に答えるためのコードを書くのに、かなりの時間を費やしている。2つのツールを使うことで、こうしたデータサイエンスのライフサイクルでよく見られるタスクを自動化することができる。目標は、組織のさまざまなプロジェクトを横断して、データサイエンスタスクにおける一貫性と完全性を確保することだ。
Interactive Data Exploration:
IDEARツールは、データを探索、可視化、解析して、データに対する洞察を与えるために使われる。R StudioのShinyライブラリをベースに、データエクスポートとレポート生成機能を備えている。データエクスポートには、ビジュアライゼーションを生成する関連RスクリプトをRログファイルに保存する機能が含まれている。ユーザーはRログファイルを実行することで、データレポートを自動的に生成することができる。
他にも、自動変数型検出、変数ランク付けとTarget Leaker識別、高次元データの可視化といった機能がある。
Automated Modeling and Reporting:
AMARはハイパーパラメータスイープを用いた機械学習モデルのトレーニング、モデルの精度の比較、変数の重要度評価に使われる。パラメータ入力ファイルには、実行すべき学習モデル、トレーニングとテストに使うべきデータ、スイープするパラメータ範囲、最適パラメータ選択のための戦略を指定する。
AMARツールが生成するモデルレポートには、モデル情報、モデルの評価と比較、特徴ランキングが含まれる。
IDEARとAMARはCRAN-Rで動作し、GitHubのサイトからアクセスできる。このリポジトリは、9月のMicrosoft Machine Learning & Data Science Summitでローンチされた
Team Data Science Process (TDSP) の一部だ。これらデータサイエンスツールについてもっと学びたい人は、Microsoft Technetのブログ記事や、Azure TDSP Utilities GitHubサイトをチェックしよう。
Rate this Article
- Editor Review
- Chief Editor Action