JasperSoft は、今週、Big dataシステム向けのレポーティングをサポートすると 発表した。このサポートには、Hadoop、幾つもの人気のあるNoSQL データベース、3つのMPP分析リレーショナル データベースにおける多様なレポーティング モードが含まれている。サポートしている注目点は、以下のようである。
- Hadoop - Jaspersoftは、Hive SQL インターフェースによりHadoopをサポートしており、 HDFS を介してファイルを読む。Avro ファイル フォーマットと HBaseが使える。
- NoSQL - Jaspersoftは、広範囲に認知されている主要なカテゴリのデータ ストアをサポートしている。その中には、キー 値ストア、ドキュメント データストア、BigTable クローン、グラーフ データベース、 データ グリッド キャッシングなどがある。Jaspersoftによる、NoSQL技術でのレポーティングのオープンソース プロジェクトには、次のものがある。Cassandra, MongoDB, Riak, HBase, CouchDB, Neo4J, Infinispan, VoltDB、Redis。非オープンソースの VMware GemFire用コネクタがベータ段階である。
- MPP 分析データベース - JaspersoftがIBMの Netezza MPP分析データベース データウェアハウスをサポートしており、すぐに商用の分析サポートを追加する。Vertica 、EMC Greenplum もサポートされている。
InfoQは、Jaspersoftで Technology Alliancesのシニア ディレクターである Andrew Lampitt氏にリリースについて聞いた。
Q:この発表は、他のBIベンダーが提供しているものと、どのように違いますか?
A: Jaspersoftは、いつも、余り知られていないデータフォーマットでのレポーティングを考慮してきました。
一般に、業界は、Hadoopでのレポーティングには、Hiveを使って、Hadoopに対してSQLクエリを実行する、という退屈なアプローチを取ってきた。Jaspersoftは、HDFSのファイル、すなわち直接にHBaseのサポートや様々なNo SQL技術に対するレポーティングを追加してきた。
Q: パフォーマンスのベンチマークは、行ったのですか?
A: これらは、第一あるいは第二世代のコネクターで、製品レベルの品質を意図していません。Jaspersoftは、プロジェクト オーナーがレポーティングの最初の成果を出せるように、どのようなベンダーともコラボしています。Jaspersoftは、いくつかの見込み顧客や既存の顧客と話して、第二あるいは第三レベルのフィードバックを得ています。
Q:これらのコネクターの採用や評価のレベルは、どうですか?
A: 我々には、それを使っている既存ユーザーとフィードバックを求めるための新しいユーザーがいます。この発表の背景の1つは、認知を高めることです。
我々は、顧客とベンダーの両方と一緒に開発しています。最も要望の高い企業のレポーティング要求は、何なのかを知りたいのです。
Q: このリリースの新しい機能は、何ですか?
A: コネクタが提供するのは、
- データ接続性 - MongoDB や Riakのようなものに対してカスタム データソースとして接続できます。
- カスタム クエリ エグゼキューター - Non SQLや階層的なものなどを含んで、様々な種類のシステムに使われるクエリ言語/シンタックスが使えます。
Jaspersoftによって、ファイルをメモリに読み込み、そこで操作できます。
Neo4Jのようなグラフデータベースでのノードに対する分析は、キー-値 ストア形式のものとは、ずいぶん違います。
Q: 従来にないフォーマットで要約やスター スキーマに対するレポーティングをサポートしますか?
A: わかりません。オペレーショナル システムに対するレポーティングは、ウエアハウス用とは非常に違いますから。
MongoDBやRiakには、GUIレベルでデータを操作できます、例えば、要約するなど。しかし、それはこれまでの分析スタイルではありません。
我々は、NoSQLをOLTPへの新しいオプションと見ています。
A: ハイ、その限界はメモリです。必ずしも全データをクライアントのブラウザに持ってくることは、ありませんが、いつも全てをサーバ側 (JasperReports Server)に持ってきます。
Q: ファイルに戻すデータセットにフィルターをかけたり、そのサイズを最小にする方法はありますか?
A: 何でも可能です。しかし、それは、すぐに解決するものではありません。ローカルなCSVファイルでの問題に似ています。一般に、いつもその全てをメモリに持ってきます。ファイルをフィルターするのに、何がいい技術かは、明白なことではありません。
もし私がHadoopを使っている開発者で、データを見たいと思ったら、ファイルシステムに対してレポーティングすることになるでしょう。