InfoQは大規模データのカンファレンスであるStrataで、Revolution AnalyticsのコミュニティバイスプレジデントであるDavid Smith氏にインタビューした。同社はオープンソースのR統計プロジェクトの商用の拡張を提供する。そして、Rエンタープライズv4.2スイートとSASのユーザがRに移行するためのツールを発表した。David Smith氏は、エンタープライズRがどのようにHadoopと巨大データを組み合わせて処理しているのかについて議論した。また、ブラックボックスのモデルからデータの探索へとニーズが変化していることも話題にあがった。
InfoQは、なぜ顧客はSASの替わりにRevolution Analyticsの利用を検討しているのかについて尋ねた。
Revolution AnalyticsはRを元気なスタートアップ企業で使用される言語から、ビジネスの世界でより広く使われるようにしようとしています。ビジネスが大きくなるにつれ、それらのスタートアップ企業はスタートアップの精神を引き継ぎながら、従来のブラックボックスのモデルを構築する手法ではなく、現代的な分析手法を探しています。つまり、多くのサンプルデータを使ってトップダウンのモデルを構築するのではなく、個別のレベルのデータの分析をするという手法です。
Revolution AnalyticsがどのようにHadoopに取り組んできるのか、それともHadoopを置き換えるのか尋ねた。
Rや私たちが生み出すものがHadoopと競合するとは思っていません。Hadoopは構造化されていない巨大なデータを保存したり処理したりするための素晴らしい方法です。一方、私たちが構築しているのはこの巨大なデータを使って予測可能なモデルを作成することです。私たちはメモリからのストリーミング(ファイルからメモリへのデータの流れ)に依存しない面白い予測アルゴリズムを作りました。また、並列処理ができるので複数のコアを使って、Rの環境に統合された問題を処理できます。また、この仕組みは私たちが構築した巨大なデータストアと一体になっています。これは、XDFでHadoopやデータベースを置き換えるものではありません。それよりもNoSQLに似ています。効率的なローカルファイルストアなのです。
Revolution Analyticsはクラスタ計算の替わりに単一のマシンでのスケールアップアーキテクチャ以上のものを提供するかどうか尋ねた。
アプリケーションによります。統計の場合、何十億もの行を回帰分析することはほとんどありません。手始めに注力したいのはは、Hadoopやデータベースにデータを保存しているアプリケーションや、分析のためにローカルのファイルシステム上に情報を置いているアプリケーションです。次のステップは分析結果をデータベースに投入することです。(Hadoopの)HDFSへ結果を投入するために私たちはClouderaのようなベンダと交渉をしています。これが実現できればローカルで処理を行い、その結果をマップリデュースに投入することができます。私たちはNetezzaとも交渉しています。そして、さまざまなリレーショナルデータベースベンダと話し合いを持っています。Talendのようなオープンソースのソフトウエアデータベンダとも協議してます。
この手法にはギブスサンプリングのようなアルゴリズムも含まれているのか尋ねた。
どのようなアルゴリズムでも独立した部分に分解して再合成することができます。標準回帰、直線回帰、クロス集計表アルゴリズムの実装が含まれていますが、これらはオープンソースではなく商用です。
Revolution AnalyticsのHadoop統合はオープンソースのRHIPEとはなにが違うのか聞いた。氏はRevolution AnalyticsのHadoop統合はRHIPEの作者による新しい開発だと述べた。似てはいるが並列アルゴリズムに最適化された設計になっている。氏はエンタープライズRはオープンソースのRを下記のように拡張したものだ。
- マルチスレッド実行へ最適化されている
- Intelの高性能行列ライブラリとの統合
- 仮想化ツール
- 巨大なデータモデルへのアクセス
- カスタマサポートの提供
すでに巨大なファンドや銀行のような金融業で多くの顧客を獲得しています。貸付金の貸し倒れリスクをモデリングするために使っているようです。これまでの30年間、営利会社のモデリングではSASが標準でした。しかし、顧客はコストを削減し、データを使ってより多くの処理をするために替わりの製品を探しています。データを保持することと、そのデータを調べ、最適なデータ集計方法を探すことは別のことです。例えば、データの損失に対処したり、変数を煮詰めて分析できるようにします。特にこのカンファレンス(Strata)には興味を持っています。分析対象のデータを扱うツールを提供できるからです。顧客はSASのような従来からあるツールから離れつつあります。このようなツールはブラックボックスにデータを投入して結果を受け取ります。学校を卒業した学士はデータを探索し、変形し、変数を見つけることに興味を持ちます。...
ブラックボックスではロングテールイベントはうまくいきません。反対により探索的な手法を使えば、考えられないほど重要になる変数もあります。異常値が見つかり、それがビジネス戦略の観点からとても重要になり得るのです。