2つの人気のあるBigTableのオープンソース実装-HBase と Cassandraの競争が、DataStaxからの新製品、Brisk、CassandraをベースにしたHadoop実装によって加速してきた。DataStaxの製品VPであるBen Werther氏によると、
「リアルタイム」なweb規模のアプリケーションとHadoopでできる大量データ分析のようなものの両方を1つのプラットフォームで提供する考えである。企業からよく耳にするのは、彼らが必要なのは、完璧なBig Dataイメージで、リアルタイムな低遅延アプリケーションからデータ分析ツール、そしてそのようなツールを使って実際にデータをアプリケーションに戻せる能力なのです。
Digital ReasoningのCEOであるTim Estes氏が 更に説明している。
Cassandraの力(その単純さ、スケーラビリティ、早い読み書き)とHadoopを合体して、DataStaxは、データ生成と分析の間の時間を高速化する強力なシステムを作りました。Cassandraの唯一無二の能力のおかげで、複数の場所にデーターセンターを持ち、複雑な大量データを取り込む必要のあるプロジェクトに対応できるのです。我々は、DataStaxチームの能力を最も要求レベルの高い顧客(特に 国防と諜報分野)に注ぎ込むことに、非常に興奮しました。
Cassandraの最初の開発元であるFacebookは、ソーシャル メール製品に、Cassandraではなく、非常に一貫性のあるフィーチャを持つ、という理由でHBaseを使っている。DataStaxは、逆方向に進んでおり、CassandraとHadoopを一緒にした。DataStaxで製品部門のVPである Ben Werther氏によると、
Hbaseは、Cassandraに比べて未だ成熟してませんし、HDFS上に作られているのでスケーラビリティも信頼性も未知数です。Cassandraは、Hadoopスタックのより低レベルな部分の全機能を提供できますが、同時に、同じにインフラで低遅延なリアルタイム アプリケーション能力も提供できるのです。Cassandraの設計のもっと素晴らしいところは、Briskインフラで、分析に焦点を当てている部分と低遅延アプリケーションを処理する部分の両方を持てることです。Hiveでクエリを書けば、Briskをリアルタイム インフラとして使えますし、Hiveで戻されたものを直ちにアプリケーションは、使えます。
Briskは、Hadoop MapReduceとHiveの両方を持っており、入手が容易なハードウェアで、クラスタを跨いで、高速な計算処理をさせることができる。しかし、Cassandraによって強化されている互換のストレージ層を使うので、Hadoop HDFSファイルシステムを使わない。同時にCassandraをその目的通りに使うことができる。すなわち、リアルタイム アプリケーション用のデータベースとしてである。また、Briskは、いくつかのHadoopにある単一障害点を取り除いていない。開発者向け文書によると Hadoop/Cassandraクラスタ設定は、依然必要である。
クラスタ中の1サーバーは下記のHadoopコンポーネント専用でなければならない。この専用サーバーが必要なのは、ジョブ、静的データ、他の必要な情報のためのJAR依存関係を保持するのに、Hadoopは、HDFSを使っているからである。クラスタ中全体の文脈では、これは、非常に小さなデータ量であるが、MapReduceジョブを動かすには、重大なものである。
- JobTracker
- datanode
- namenode
現在のところ、Briskは、まだ話の域をちょっと出たぐらいである。プラットフォームは、実運用システムでは使われていない。オープンソース化もされていない。しかし、いずれにせよ、注目を集める提案である。