GoogleのDremel論文の公開以来、HadoopコミュニティはHadoopの周りに同じような機能を構築しようとしてきた。最初、オープンDremel、現在Apache Drillの一部である、は昨年Apacheのインキュベータプロジェクトになった。次に、やはり昨年、ClouderaがImpalaを導入した。これは現在ベータ段階で、 Cloudera Hadoopディストリビューションである CDH 4.1の一部になっている。
この世界の新しい競争相手は、Stinger Initiativeで、先週 Hortonworksによって、Apacheのインキュベートプロセスに持ち込まれた。目指しているのは、
Hiveを人が耐えられる時間内のユースケース(すなわち5~30秒の範囲でクエリする)に答えられるようになることです。例えば、ビッグデータ探索、視覚化、パラメータ化されたレポートは、別のツールをインストール、保守、学習することに頼ることなく、既存のHiveのスキルを持ち、投資をしているユーザーの大きなコミュニティに多大な価値を提供できる。
Hortonworksは、この目標を達成するために、以下のことを実現しようとしている。
· HiveをもっとSQL準拠にする。Hiveに欠けているSQLタイプや‘where’クローズでのサブクエリをサポートすることを含む。
· Hiveの実行計画を最適化する。
· 新しいHadoopの列フォーマットをサポートする。これは、ORCFileと呼ばれる( Dremel, Drillそして ClouderaのTreviniに似ている)
· 新しいランタイムフレームワークTezの導入。YARNをベースにしている。
ヒンズー語で「スピード」を意味するTezは、現在Apacheでインキュベーション投票の下にある。
… 汎用目的で、高度にカスタマイズ可能なフレームワークは、Hadoopにおいて小規模(低遅延)と大規模(高スループット)の両方の作業負荷に跨って、データ処理タスクの作成を簡単にする。それは、MapReduce パラダイムをもっと強力なフレームワークに一般化している。このことは、1つのジョブに、複数タスクの複雑なDAG(非循環有向グラフ)を実行する機能を提供することで実現され、その結果 Apache Hadoopエコシステムにおけるプロジェクト、例えば、 Apache Hive, Apache Pig 、Cascading は、人とやりとりする応答時間やペタバイト規模での強烈なスループットの要求を満足することができる。(明らかに MapReduceは、この実現におけるキードライバーである)。
現在の「リアルタイム」Hadoopクエリ実装の3つ全て- Drill, Impala、このStingerは、既にあるいは、近々オープンソースプロジェクトになり、リアルタイムHadoopクエリの重要な問題を解決するために、コミュニティのサポートとインプットを活用できる。