Datameerは先頃、SmartAIを発表した。ビッグデータと機械学習モデルを統合することにより、より優れたデータインサイトを提供する。
SmartAIの目標は、例えばビッグデータの規模でAIアルゴリズムを実行するような、ビッグデータ用のAIを運用可能にすることで、分析ワークフローにAIモデルをプラグインしたビジネス分析を実現することにある。これらすべてを、セキュアかつコンプライアンスを備えた方法で行なえるようにするのだ。
InfoQは、Datameerでマーケット情報戦略を担当するシニアディレクタのAndrew Brust氏に、AIにおけるビッグデータの一般的役割に関して、一般論とSmartAI特有の両面から質問をした。
InfoQ: ビッグデータの企業であるDatameerがなぜAIに進出するのでしょう?流行だからですか?
Andrew Brust: Datameerがビッグデータ企業であることには、現在も変わりはありません。実際、SmartAIのテーマは、ビッグデータの分析ワークフローにAIを統合することなのです。AIを企業に導入することの難しさのは、ビッグデータ、ビジネスインテリジェンスなどの分析ツールやテクノロジとの違いの大きさによるものが大半です。SmartAIでこれを是正したいのです。AIをメインストリームの分析パイプラインに持ち込むことで、その力を活用するのです。
InfoQ: ビッグデータとAIのシナジーについてはどう思いますか?SmartAIではどのように利用されているのでしょう?
Brust: ビッグデータとAIには強いシナジーがありますが、十分に活用されているとは言い難い状況です。SmartAIでは、Datameerがこの2つの世界を結び付けています。機械学習モデルによるデータのスコアリングは、主にデータ科学者のワークステーション上に限って行われるような、アドホックなプロセスに今も留まっています。しかしそれは、自動化ベースで、ビッグデータのスケールで、Hadoopクラスタの全ノードに渡って行われるべきです。それこそが本来の姿なのです。
InfoQ: 機械学習ではデータ作成(data preparation)とデータ操作(data manipuration)が大きな意味を持ちますが、それはHadoopの一般的な強み、特に貴社の強みに関わってくるものなのでしょうか?
Brust: そうですね、データ作成は私たちのストーリの大きな部分を占めています。ビッグデータの大きな部分であり、AIの大きな部分でもあります。AIを実践しようとする場合、まずはアルゴリズムを選択してモデルをトレーニングします。このモデルのトレーニングに使用するデータは、クリーンで、重要な入力項目のみにフィルタリングされ、適切なレベルで集計されたものでなくてはなりません。これらのステップはすべて、データ作成のステップです。生データ値による複雑な計算をベースとしたデータ項目についても、これと同じことが言えます。DatameerはHadoopを使って、適切にこれを実行してくれます。ですからAI機能の追加は、この極めて自然な延長線上にあるのです。
InfoQ: AIを運用可能にするというのは、どういう意味なのでしょう?技術的な方向から、一般論とSmartAI特有の面で説明して頂けますか?
Brust: 先程述べたように、データスコアリングは手作業による個別プロセスとして、データ科学者が自身のワークステーションで行なうのが一般的です。そのプロセスの出力は、ビジネスにおいて非常に価値のあるものですが、その実施方法は企業として標準化されるには至っていません。ボタンをクリックすれば実行できるような、他の重要なコンピューティングプロセスを越えたものなのです。
スコアリングプロセスを自動化し、管理し、監視し、大規模に実行することが必要です。別の言い方をするならば、運用可能(operationalize)にする必要があります。そのような方法でこれまで行なわれていなかったと言うのは、信じられないかも知れません。ですが大筋として正しい解釈です。SmartAIでは、スコアリングは運用作業の対象となっています。従来のビッグデータ解析に使用されていたものと同じデータパイプラインエンジン、同じ管理機構に統合されているのです。このアーキテクチャによって、例えば、日毎や時間毎など、分析パイプラインに設定されたポリシに従って、ビッグデータ上でチャーン分析モデルを実行することが可能になります。
InfoQ: ディープラーニングに関しては、SmartAIではトレーニングと推論の両面で取り組んでいる、ということなのでしょうか?あるいは分析が中心なのでしょうか?
Brust: Datameerには、実際のトレーニングプロセスは取り込まれていません。データ科学者が好みの開発環境、言語、ツールを使って、コマンドラインインターフェースで自身のモデルをトレーニングする作業が、今後も続けられるのです。
モデルがトレーニングされれば、Datameerにインポートすることで、ライブラリに含まれる270以上のスプレッドシート関数に追加して呼び出し可能になります。これにより、セキュアで、管理され、スケジュールされたデータパイプライン内にAIを組込んで、分析とAIを別々に使用した場合よりも強力なものにすることができるのです。
InfoQ: 最後になりますが、TensorFlowを選択した理由と、将来的に他のAIツールキットに対応する計画が製品ロードマップにあるのかどうか、教えてください。
Brust: 私たちがTensorFlowに投資したのは、現時点で人気とマインドシェア、さらには充実したエコシステムを兼ね備えているからです。AIの分野は絶え間なく変化していて、他にも注目されているディープラーニングフレームワークがたくさんあります。それらはいずれも、これから勢いづく可能性を秘めています。今後はマーケットを監視し、状況の変化を見ていくつもりです。私たちがTensorFlowで採用したアーキテクチャのアプローチは、他のライブラリにも利用することができるはずです。しかし現時点では、SmartAIをTensorFlowのインテグレーションとしてDatameerに実装するという、自分たちの決断に強い自信を持っています。
Datameer SmartAIは、まもなくテクニカルプレビューとして公開される予定である。
この記事を評価
- 編集者評
- 編集長アクション