2週間前に開催されたGigaOM Stucture conferenceでは、クラウドコンピューティングにおける様々な分野に対する取り組みが行われた。このイベントの主要テーマの一つが、新しいデータアーキテクチャの台頭だった。パネル、インタビュー、プレゼンテーションを通じ、多くのスピーカが、データがどのように扱われるかという点についての来るべき重要な変化について語っていた。
VMWareのCEOであるPaul Maritz氏によれば、OSに課せられた伝統的な役割はシステムのリソースを管理し、サービスを提供することだったが、このどちらの領域においても置き換えがなされつつあるという。仮想化の技術がCPUやメモリを越え、ストレージやポリシーといった領域をカバーしつつあるというのだ。同様に、SpringフレームワークやRubyフレームワーク(おそらくはRails)といったプログラミングフレームワークが、サービスを取得する際の主要な手段になりつつあるとも語った。Maritz氏はVMWareがJavaの世界の外でフレームワークを提供する企業を買収しようと考えているという。こうしたフレームワークが重要なのは、クラウドサービスが新しいハードウェアで、中身を見ることができないブラックボックスであるため、フレームワークレイヤが総合運用性と管理機能を可能にするからだ。またフレームワークを越えて、彼らはキューやデータキャッシングの技術に多く投資している。VMWareは「データスタック」全体が熟成されつつあると考えているのだ。
VCパネルにおいて、Clouderaに投資してきたAccel PartnersのPing Li氏が語ったことによれば、彼らはClouderaのような企業が提供する分析やOLAPと同様に、NoSQLを用いた新しいデータスタックの台頭に大きなチャンスがあると見ている。Hadoopの利用を前提としても、さらなる分析を行う必要がある。Web2.0企業が新しいデータレイヤを必要としたように、新しいクラウドアプリケーションもまた、同じものを必要とするのだ。
このイベントには、新しい新興企業のためのLaunch Padも含まれていた。データ処理における変化に関連するものとしては、以下がある。
- DataMeer - 巨大なデータの分析を行うツールを提供する。この分析はスプレッドシートのメタファーを用いて、コーディングレスに行われる。
- NorthScale - MemBaseサーバのβ版を売り出した。これは永続化ストレージを使ってMemcachedを拡張したものである。
- Nephosity - コードの代わりにウィザードを使用してHadoopのジョブを設定する。
- Riptano - 代表的なNoSQLキー/バリューストアであるApache Cassandraのための企業サポートとディストリビューションを提供する。
クラウドにおけるデータベースのスケーリングに関するパネルもあり、10gen、Neo Technology、Pervasive Software、Clustrix、Terracotta、Northscaleによって行われた。こうしたグループの間で合意が形成されているものの1つが、伝統的なデータベースはスケーラブルなクラウド環境ではうまく機能しないというものだ。ClustrixのPaul Mikesell氏の主張によれば、分散データベースはスケーラブルではない実装の問題を修正することができると同時に、管理上のシングルポイントを提供し、交換可能なリソースをもたらすことができるという。他の意見としては、リレーショナルデータベースは開発者にとって扱うのが難しく、別のデータフォーマットやワークロードが異なるデータストレージの機構によってもたらされるというものがあった。Pervasive SoftwareのMike Hoskins氏によれば、リレーショナルデータベースがあらゆるデータの問題に対して持っていた致命的な影響力は終わりを迎えており、そのポスト-リレーショナルという概念がNoSQLよりも重要なのだ。
SQLが役立つかどうかという点については、多くの議論があった。10genのRoger Bodamer氏はNoSQLの方がドメインのモデリングをする上では自然であると論じている。これはリレーショナルなスキーマがあまりに多くのテーブルや関連を含んでおり、うまく機能するためには素晴らしい技巧を持ったデータモデラを必要とするからだという。Neo TechnologyのEmil Eifrem氏によれば、SQLはしばしば泣き所となっている。開発者たちはSQLを嫌い、SQLの利用を避けるためにツールを使うのだという。同じように、TerracottaのAmit Pandey氏は、開発者たちが、データベースプログラミングのための抽象化レイヤとして、通常Hibernate(Java向けおよび.NET向け)を使っていると語る。10genのRoger Bodamer氏によれば、分析のためにはSQLはきわめて有用だが、NoSQLは、トランザクションの強固な整合性が必要とされない場所における読み取りと書き込みの水平なスケーラビリティに効果を発揮するものであり、目的に応じてさまざまなデータベースの種類がある。グラフデータベース、キーバリューストア、ドキュメントストア、カラムストアなどである。氏はMongDBが代表的なドキュメントベースのデータベースであると論じ、ユーザはこの技術を製品に組み込む際の操作に関する問い合わせをし始めているとしている。たとえば、データのバックアップの方法は何で、そのベストプラクティスは何か、といったものである。Paul Mikesell氏によれば、分析データベースとOLTPデータベースの間には異なる要件があり、後者はカラムベースの分析データベースと違って、より強い一貫性と並行性を要求するために、行をベースとしたフォーマットであることが余儀なくされている。
クラウドがどうデータベースを変化させているかという問いに対して、Paul Mikesell氏は、shardingが単一インスタンスのデータベースが失敗したことの証拠だとする。これはクラウドにおいてもそうであるし、ローカルデータセンターにおいても同じことが言えるとする。さらに、Hadoopに関してClustrixや他の企業がトランザクションに焦点を絞っているのに対し、分析の側面においてもすばらしい仕事をしていると語る。Amit Pandey氏は25年という年月が伝統的なデータベース設計を殺したとする。Roger Bodamer氏は付け加えて、スケーラブルなデータベースの実装はラックの消失といった障害に耐えることができ、それによって新鮮なデザインからのオーバーヘッドを低くすると同時に、クラウドにもうまく適合しているとする。また、Mike Hoskins氏によれば、重要なのはデータベースに対してどのようにデータを出し入れするかであり、リレーショナルデータベースにあるようなデータのロード、レポーティング、メタデータの管理ができる高機能なツールがあれば、先進的なデータベースの各実装間にもっと多くのギャップが見られる。氏によれば、ほとんどの問題は分析データの扱いにあるのであり、こうしたギャップはトランザクション処理に比べればはるかに扱いやすいものだというのだ。
Big Dataに関するパネルも、Cloudera、SQLStream、NEC Labs、Yahoo、Par Accelによって行われた。自分がBig Dataを扱っているかどうかがどうすれば分かるのかを聞かれた際、ClouderaのAmr Awadallah氏は、定期的に新しいディスクとアーカイブテープを買っているかどうかだと答えた。SQLStreamのDamian Black氏は、消化不良を起こしており、データが到着するペースについて行けていない時に分かると述べ、NEC LabsのHagan Hacigumus氏は、既存のデータ管理が崩壊した時に「より大きなデータ」を扱っているとした。YahooのTodd Papaioannou氏はBig Dataをむしろデータの組成に関係したものと見る。これは「非常に大量の」非構造化データもしくは半構造のデータであり、そこに価値を見出そうとしているものだというのだ。Par AccelのBarry Zane氏は、あまりにも多くの情報があり過ぎて、疑問に対する回答を妥当な時間に得るのが気が遠くなるようなタスクになってしまっている状態と見る。これはたとえば、クリックストリーム分析などだ。
また、パネリストは実際の利用例についても質問された。Amr Awadallah氏によれば、eBayは現存する3番目に大きなHadoopのクラスタを所持してそこに数ペタバイトのデータを保持しており、それと伝統的なデータウェアハウスとの間でデータの移動を行っている。eBayのHadoopクラスタの主な意義は、商品と人をマッチングさせる新しい方法や、ランキングの計算、不正の検知といった複雑なアルゴリズムを実行できるようになることだ。また、氏はアポログループ(フェニックス大学を経営する企業)も巨大なHadoopクラスタを保持しており、コンテントの提供を最適化するために、学生がオンラインコンテントとどのようにインタラクトしているかを分析するのに利用していると語る。Damian Black氏によれば、オーストラリア政府はあるプロジェクトを進めている。これは高速道路を走るすべての車両をモニタリングし、動的に制限速度を設定するというものだが、交通渋滞を引き起こす圧縮波("compression waves")を避けるためには、この処理がリアルタイムに行われる必要がある。Barry Zane氏は、Fidelity National Information Servicesが新しい手段の不正を検知するためにカードを用いた活動の相互比較を行っていると語った。また、Todd Papaioannou氏は、Yahooが一日に450億のイベントを分析することで、ユーザの興味にコンテントを向けようとしていると語る。これはすなわち、広告のターゲッティング、スパムのフィルタリングおよび機械学習といったふるまいを実行するというものだ。
フォーチュン1000に記載された企業のうちどのくらいが、現在Big Data問題に取り組んでおり、また3年以内に取り組まなければならなくなるかと聞かれ、Hagan Hacigumus氏は、約30%がデータの問題を解決するために先進的な技術を必要すると述べた。また、Amr Awadallah氏によれば、こういった企業はすべて問題を抱えており、まだ認識していないだけだという。例えば、データを圧縮するということは、政府に指示されない限り、データをテープの墓場に移動することを意味する。また、データを20から30のデータベースに分裂させるかわりに、データを統合したいという切実な必要性も存在する。Todd Papaioannou氏によれば、こういった企業はすべて問題を抱えているが、それを解決するのにどれほどのコストを支払わなければならないかを認識していない。Barry Zane氏によれば、こうした企業のクライアントの頭の中には問題があるが、通常は自分たちに何ができるかということについての先入観に制約されている。これについてある小売店の例が上げられた。この小売店はクエリ性能のベンチマークを行っていたが、実際には全商品を通じた親和性を発見するためのマーケット・バスケット分析を数日ではなく、数分で行うことができたというのだ。
IBMのErich Clementi氏は、ヘルスケア、政府、金融サービス、小売り組織がBig Data分析に興味を示していると述べた。IBMの内部セールスデータは、300のデータマートと40から50のアプリケーションから変換されたという。同社はアプリケーションを削除し、すべてのマートを単一のペタバイトデータマートに統合した。このデータマートに対しては、一日に100,000人がアクセスをしている。また、氏はヘルスケアのプロバイダと協業し、HIPAA(訳註:医療保険の相互運用性と責任に関する法律)を遵守したクラウドを提供していると述べた。このクラウドにより、臨床試験のコストを8から12%削減できる。こうしたコストはデータの移動に使われているのだ。Erich Clementi氏は、ある種のデータセットに関しては競合問題があり得るとはいえ、創薬のためのデータを競合他社間でも共有したり、金融サービス会社が不正の検知のためにデータを共有できるようにすることには重要なチャンスがあると見ている。これは取引を改善するためのデータを共有しなかったとしても言えることだ。こういったマルチテナントのクラウドを組織する上では、当然ながらセキュリティやプライバシーに関する要件に対して注意を払う必要がある。
データアーキテクチャの変更というテーマはカンファレンスを通じ、ベンダーや大規模データのユーザといった多くの様々な企業の視点から見ても重要なものであった。大規模データ分析のソリューション、特に分散ファイルシステムに格納されたデータをHadoopを利用して高速に処理するものに対する興味と同じく、軽量データストレージとしてのNoSQLエンジンに対する興味も見られた。