読者の皆様へ: 皆様のご要望にお応えするべく、ノイズを削減する機能セットを開発しました。皆様が関心をお持ちのトピックを、EメールとWeb通知で受け取ることができます。新機能をぜひお試しください。
Dataikuは、共同データ分析および予測分析プラットフォームData Science Studio(DSS)の開発企業である。
このプラットフォームは、接続性からデータラングリング(data wranglingI)、可視化、マシンラーニングや製品展開まで、データサイエンスのエンドツーエンドプロジェクトの全ステップをカバーする。マシンラーニングモジュールではScikit-learn、XGBoost、MLLIbあるいはH20といった、標準的なライブラリがサポートされる。Hadoopクラスタに接続して、複数のSparkエンジンを統合することも可能だ。
同社のプラットフォームは、需要予測、生涯価値の最適化、顧客離れ分析(churn analytics)、不正検出といった、一般的な予測分析のユースケースに合わせてカスタマイズされている。ユーザはGeneral Electric、L'oreal、Unileverといった大企業だ。同社はGartner 2018 Magic Quadrantでデータサイエンス・プラットフォームとして、2年連続で“ビジョナリ”に選ばれている。
Dataikuは先頃、画像処理用に事前学習されたディープラーニングモデルを備えた、Data Science Studioのバージョン4.2をリリースした。モデルはさらに、トランスファラーニングを通じてプロプライエタリなデータセットに適合させることも可能だ。
InfoQは同社CEOのFlorian Douetteau氏と席を共にし、同社とその主力製品について詳しく聞いた。
InfoQ: DataikuのデータサイエンスプラットフォームであるDSSについて、背景を少し説明して頂けますか?どのようなテクノロジが背景にあるのでしょう?
Florian Douetteau: Dataikuは、ユーザがダウンロードして、自らのインフラストラクチャにインストールするタイプのソフトウェアです。クラウドで利用しているユーザが多いのですが、社内のデータセンタで運用することも可能です(およそ50/50の比率です)。
当社の製品は一般的に、ユーザ側の展開上の制約や問題による影響を受けるので、可能な限りシンプルでなければなりません。アーキテクチャとしてはマルチプロセスですが、自己完結型という意味ではモノリシックでもあります。ソリューションには基本的に、データベースのSQLiteやH2を含め、必要なものをすべて組み込んでいます。コーディングにはおもにJavaを使用します。Javaはビッグデータの主要言語のひとつで、パフォーマンスと生産性の妥協点として適切なものと考えています。
バックエンドにはジョブスケジューリング、メタデータの保存と管理、検索インデックス作成を行うWebサーバがあります。その他にPythonとRのプロセッサ、それからもちろん、Sparkのプロセッサがあります。フロントエンドには、AngularJSのシングルページアプリケーション(SPA)を使用しています。
InfoQ: おもなユーザはどのような人たちでしょう?マーケティング部門や営業部門でも使用できるのでしょうか、あるいはある程度の知識が必要ですか?
Douetteau: Dataikuの優れている点は、企業内でデータを使用したりデータに関わっているすべての人に適していることです。もちろん、コーディングとデータサイエンスの専門知識のある人には、さらに多くの機能が提供できます — 自身の得意なビッグデータプログラミング言語を使って、さらに高度で特別な作業を行なうことが可能です。ですが、これらのコーディング機能をポイント・アンド・クリックなビジュアルインターフェースと組み合わせて使用しているデータ科学者もたくさんいます。その方が効率的な場合もあるからです。
Dataikuのビジュアルインターフェースでは、アナリストなどの非技術者でも、データソースの接続からデータラングリング、マシンラーニングモデルへの適用、視覚化などを、1行のコードも書くことなく実行できるのです。大勢のアナリストを抱えた大規模なチームでは、これによって素晴らしいスケーラビリティを実現できます。逆にデータ科学者がいないような小規模なチームは、多様な柔軟性が手に入ります。
InfoQ: 今回のDSS 4.2リリースには、ディープラーニングによるイメージベースの認識機能が含まれていますが、ディープラーニングに関する製品戦略はどのようなものですか?
Douetteau: 2018年から2019年にかけては、生産的なデータプロジェクトの障害となるものを取り除き、長期的な成功に必要な構造と安定性を提供することによる、企業の支援を目指します。具体的には、製品開発のロードマップにおいて、ディープラーニングやAI、運用レベルのデプロイメントといったものに、これまで以上に注力します。
InfoQ: コンピューティングパワーとストレージに関して、ビッグデータとディープラーニングを扱う大規模なマシンラーニングでは、これらをどのように扱うのですか?
Douetteau: パフォーマンスに関して言えば、Dataikuはユーザがダウンロードして自身のインフラストラクチャにインストールするタイプのソフトウェアですから、パフォーマンス確保のために複数のインスタンスにデプロイするのはクライアントの責任になります。
これこそがまさに、私たちのサポートするもの — スケールアウトと新たなノードの追加です。当社を信頼してデータをホストするようにユーザを説得するのは、大規模な国際企業が対象であることから、非常に難しいのです。それに加えて、基盤技術の問題もあります — 例えば、データをできるだけ手近に置いておきたいのであれば、SaaSは優れたソリューションにはなり得ません。クラウドならば、これらは非常にうまくいきます — そのため当社は、AWSやMicrosoft Azure、GCPに対して、マネージドなHadoopソリューションを通じて統合しています。
Dataikuは6月4日サンフランシスコで開催されるSpark Summitを始めとして、今後数ヶ月間、米国のいくつかのビッグデータおよびAIのイベントで紹介される予定である。Studioの無償版がDataikuのWebサイトで公開されている。
この記事を評価
- 編集者評
- 編集長アクション