OracleはOracle Berkeley DB Java EditionをベースにしたキーバリューストレージであるOracle NoSQL Databaseを搭載したBig Data Applianceを発表した。これは、数十億の行、数テラバイトを格納する能力を持ち、トランザクションのACID特性、CRUD、シャーディングをサポートする。また、単一障害点は無く、データセンターレプリケーションを利用したデザスタディカバリも実現できる。
リレーショナルデータベース最大手のOracleは2011年5月に“NoSQLの噂を暴く”と題したホワイトペーパーを発表した。この文書の中で、OracleはNoSQLには多くの問題があることを証明しようとした。この文書は、標準化されたAPIが無いことや、非効率な処理能力の使い方、Googleのような大規模な会社でしか使えず、安全性が確保できていない点などを指摘して、次のように結論を下した。
このような問題の基底にあるのは、まだNoSQLデータベースが成熟してないということです。… リレーショナルデータベースと比べて、NoSQLの機能はまだ原始的です。現在はまだあまり大きいデータを扱っていませんし、性能面で問題があります。実績もあまり多くありません。アプリケーションで利用するのも難しいです。実装が複雑になりますし、高可用性を確保し、SLAも評価しなければなりません。
しっかりと検証して正しい道を進みましょう。NoSQLデータベースでデータを危険にさらさないようにしましょう。
この文書がもはやOracleのサイトに存在しないのは興味深いが、インターネット上で見つけられる。おそらく、OpenWorld 2011のキーノートでBig Data Applianceを発表したので隠さざるを得なかったのだろう。このアプライアンスは“非構造化データの取得、組織化、読み込みに最適化されたシステム”で、Apache HadoopやOracle Data Integrator with Application Adapter for Hadoop、統計言語Rのオープンソースディストリビューションを同梱したOracle NoSQL Databaseを搭載している。
Oracle NoSQL Databaseは高い拡張性と可用性を備えたキーバリューデータストアであり、高速なフェイルオーバと負荷分散を実現する複数の複製ノード上に配置される。データへのアクセスは単一のJARファイルにパッケージ化されたJava API経由のGet、Put、Delete操作を使う。その他の特徴は、
-
すべてJavaで書かれている
-
数テラバイトのレコードを格納するBツリーストレージ
-
データのパーティショニングと分散の基づく、自動ハッシュ関数
-
トランザクションのACID特性
-
調整可能な耐久性を備えた完全なCRUD
-
単一障害点が無い
-
シャーディングをサポート
-
単一あるいは複数のノード障害からの復旧能力
-
データセンターレプリケーションを使ったディザスタリカバリ
-
数千ノードのサポート
-
ノードレベルでのバックアップとリストア
Oracle NoSQL Databaseは、正式な文書ではOracle NoSQL Database 11gとも呼ばれ(PDF)少し混乱している。このデータベースはオープンソースのOracle Berkeley DB Java Editionをベースにしており、Data Integratorを通じてOracle Database 11gと統合されている。また、下図の通り、In-Database Map-Reduceを通じてHadoopと統合されている。
過去において、Oracleがリレーショナルデータベースにどんなデータでも格納できると考えているのなら、今や巨大なリアルタイムのデータを扱うには、リレーショナルデータベースは“間に合わない”と認識している。Oracle NoSQL Databaseのより技術的な詳細を解説したホワイトペーパー(PDF)には次のように書いている。
巨大なリアルタイムのデータ、例えば、ウェブサイトのクリックストリームの分析は、非構造化データを利用してビジネス価値を生み出すことで、ビジネス上の優位を提供します。従来のリレーショナルデータベースはこの仕事には不向きです。従って、企業はこの10年間、分散ハッシュテーブル(DHT)や従来のリレーショナルデータベース、組み込みキーバリューストアなどを研究してきました。高可用の分散キーバリューストアであるOracleのBerkeley DBもこのような研究の成果です。
OracleはこのNoSQL Databaseに対して商用のサポートを提供する。