マネージドHadoop-as-a-Serviceを提供するQuboleがGoogle Compute Engine (GCE)上で利用可能となった。QuboleはこれまでAmazon社のAWS上のみで利用可能だったが、この発表はGoogle Compute Engineの一般提供が開始されたほんの数日後に行われた。
コニュニティの反応は概して好調で、皆ビッグデータのテーマをGCEのキラー・アプリケーションとなる見込みがあると見なしているようだ。DataStax社のAlex Popescu氏はこのように見ている。
Google Compute Engineに関連する各社の発表を見ていると、あるテーマに気付くだろう。OLTPにはDataStax社のCassandra/DSE, ストリーム処理にはDataTorrent, HadoopにはQubole, HadoopライクなソリューションにはMapR…など、あらゆる角度からデータを扱うということだ。この流れを見ていると、Google Compute EngineはAmazon Web Servicesの強力なライバルとなるであろうことが伺える。
Hadoop-as-a-Service(HaaS、またはクラウド上のHadoop)と並ぶ選択肢は下記のようになる。
- GCEやEC2のようなIaas環境にてApache Hadoop, もしくはCloudera, Hortonworks, MapRなどのディストリビューションをインストールする、独自でのデプロイ管理。稼働しているものに対するきめ細やかなコントロールが可能だが、デプロイや管理の複雑性を伴う。
- デプロイ時の複雑性の軽減に役立ち、インストールされたサービス上での中間レベルの制御を提供する、Amazon社のEMRやSavvis社の提供するBig Dataサービスのようなプレパッケージ型サービス。
- デプロイや管理の複雑性を軽減することが期待できる、QuboleやMortarのようなマネージドHaaS
HaaSとオンプレミスデプロイの決定的な違いは、融通性、スポット価格、処理とストレージ(たとえば、Amazon社のS3やGoogle社のCloud Storageeのような一貫性のあるオブジェクトストア)との分離、そしてセキュリティ基準の強化にある。QuboleのようなマネージドHaaSは開発時に、評価やテスト、短時間解析ジョブやハイブリッドクラウドセットアップを実現する用途でよく利用される。しかし、下記のような独自の制限もある。
- クラウドへのデータ投入とデータ再出力は独自価格となる
- 法的要件に起因するプライバシーとデータ保護の問題がユースケースを防止または制限する可能性がある
- TCOの24時間オペレーションは個々の状況に応じて判断する必要がある
- Hadoop, Hive等と一貫性のあるオブジェクトストアとの間に一般的な不整合が存在する
Ashish Thusoo氏とJoydeep Sen Sarma氏はFacebook在職中にデータインフラストラクチャチームを管理し、HadoopとHiveを稼働させる経験を積んだ。その後2012年6月にQuboleを立ち上げ、2013年4月にはシリーズAラウンドで700万ドルもの資金調達を受けるまでに至った。Joydeep氏はHive London Meetupでの講演「クラウドフレンドリーなHadoop & Hive」にて、HaaS提供を実施するにあたって直面した課題とその内部についての見識を掘り下げて分析している。さらに、Christian Prokopp氏(Rangespan社のデータサイエンティスト)は最近、詳細な概要報告と、QuboleとEMRの比較についてまとめている。