BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Amazon、Cloudera、Microsoft、IBMのHadoop-as-a-Service

Amazon、Cloudera、Microsoft、IBMのHadoop-as-a-Service

原文(投稿日:2011/10/26)へのリンク

企業はますます意思決定をビックデータに頼るようになっている。Amazon、Cloudera、IBMはそれぞれHadoop-as-a-Serviceの提供を発表した。Microsoftも来年、同様のサービスを発表する。

AmazonがAWS Elastic MapReduceの提供を始めたのは2009年のことだ。これはApache HadoopをEC2とS3で動かすサービスだ。Amazonが提供する他のIaaSと同様、このサービスもビックデータの分析に必要な最小限のハードウエアとソフトウエアを提供し、顧客にはフレームワークを構成したりプログラミングしたりする余地を残してあるが、これは専門的知識が必要な作業だ。このような知識があるのなら、企業はHadoopをのジョブを正しく実行できる。New York Timesは100のEC2インスタンス上でHadoopを24時間動作させることで、低コストで1100万の画像を変換し、1851年から1922年までの記事を1.5TBのPDFにした。

ClouderaはCDH3を提供することでAmazonのMapReduceサービスを一歩先へ進める。CDH3は複雑なHadoopのジョブの管理と実行を支援するためのたくさんのソフトウエアが追加された、Hadoop向けに最適化されたAMIだ。Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirrなどのソフトウエアを含む。ほとんどがオープンソースプロジェクトだ。しかし、インストールや構成に多くの知識とリソースが必要だという問題は解決されていない。CDH3インストールガイド(PDF)は175ページもあり、JDKからCDH3、Snappyやその他の構成物のセットアップを説明している。

MicrosoftはPASS Summit 2011にて、2012年にはWindows AzureとSQL Serverに統合されたかたちでHadoop-as-a-Serviceを提供すると発表した。保持している大規模データを分析したいと考えている企業向けだ。詳細は不明だが、MicrosoftはApache Hadoopとの互換性を維持し、Hadoopに対しても情報を提供し貢献するということを約束している。また同社はSqoopベースのSQL Server-Hadoop Connectorを既に発表している。これはSQLのテーブルとHadoopには必要不可欠なHDFSの間で双方向のデータ移行を実現する。HDFSが必要なのはHadoopが効率的に大量のデータを処理するため、独自のファイルシステムであるHDFS上にデータを保持するからだ。

他のプレイヤーも動いている。IBMはIBM InfoSphere BigInsightsを使って同社のSmartCloud Enterprise上でHadoopを動かすサービスを提供する。BigInsightsには2つのエディションがある。ひとつは無償で操作も簡単なBasicだ。これは評価目的として利用できる。もうひとつはEnterpriseでこれは業務で実際に使われることを想定している。IBMのソリューションはWatsonを技術基盤にした、今までで一番成熟したものになっているようだ。Watsonは今年、アメリカのクイズ番組Jeopardy!でふたりのクイズ王に勝利した。Watsonは巨大ノード群の上でHadoopを実行してクイズの答えを見つけるだけでなく、“その他にも自然言語の分析や情報源の特定、前庭条件の特定と生成、証拠の特定と評価、仮説の統合とランク付け“に必要な100を超える技術が使われている。単なるビッグデータの処理プラットフォームではなく、データの処理と解釈に利用できるインテリジェンスを提供するのだ。データの解釈はこのデータ分析の領域で最も難しい分野のひとつだ。

Clouderaと同じようにIBMのBigInsightsもHadoop以外に多くのオープンソースソフトウエアが含まれている。

  • Hadoopの実行環境であり、高水準プログラミング言語であるPig
  • JavaScript Object Notation(JSON)ベースの高水準問い合わせ言語であり、SQLもサポートするJaql
  • Hadoopのバッチ処理とファイル分析をサポートする目的で設計されたデータウエアハウスインフラのHive
  • Hadoopの大規模でデータが分散しているテーブルを支援する目的で設計された列指向データストレージであるHBase
  • Hadoopへのデータ投入の仕組みであるFlume
  • テキスト検索と索引技術であるLucene
  • データシリアライゼーション技術であるAvro
  • 分散アプリケーション向けの協調サービスであるZooKeeper
  • ワークフロー/ジョブオーケストレーション技術であるOozie

BigInsightsにはIBM独自の技術も含まれている。テキスト分析エンジンや、分析者のためのデータ探索ツール、管理を簡単にし、性能を向上させるためのエンタープライズアプリケーションとHadoopとの統合などだ。

BigInsightsはオンライン分析処理(OLAP)やオンライントランザクション処理(OLTP)を置き換えるものではない。しかし、これらの技術と統合し、“大量の生データをフィルタして、その結果をDBMSやデータウエアハウス内の構造化されたデータストアを合わせる”ことも出来る。

IBMのHadoopソリューションは現在稼働中で顧客はテスト利用できる。

この他の注目ソリューションは1000以上のノードを含むクラスタでHadoop統合テストを実行するEMC Greenplum Analytics Workbenchだ。これはEMCがIntel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch、VMwareとの協業で提供する。GreenplumはHadoop-as-a-serviceではなく、Hadoopのテストに使える10000の仮想ノードと24PBのストレージを保持するプラットフォームを提供する。

2011 TDWIの調査によれば、34%の企業がビックデータの分析をして意思決定の材料にしている。ビックデータとHadoopは将来重要な役割を担いそうだ。

この記事に星をつける

おすすめ度
スタイル

BT