BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース JasperSoft 4 がBig Dataをサポートしてリリース

JasperSoft 4 がBig Dataをサポートしてリリース

原文(投稿日:2011/01/28)へのリンク

JasperSoft は、今週、Big dataシステム向けのレポーティングをサポートすると 発表した。このサポートには、Hadoop、幾つもの人気のあるNoSQL データベース、3つのMPP分析リレーショナル データベースにおける多様なレポーティング モードが含まれている。サポートしている注目点は、以下のようである。

 

  • Hadoop - Jaspersoftは、Hive SQL インターフェースによりHadoopをサポートしており、 HDFS を介してファイルを読む。Avro ファイル フォーマットと HBaseが使える。
  • NoSQL - Jaspersoftは、広範囲に認知されている主要なカテゴリのデータ ストアをサポートしている。その中には、キー 値ストア、ドキュメント データストア、BigTable クローン、グラーフ データベース、 データ グリッド キャッシングなどがある。Jaspersoftによる、NoSQL技術でのレポーティングのオープンソース プロジェクトには、次のものがある。Cassandra, MongoDB, Riak, HBase, CouchDB, Neo4J, Infinispan, VoltDBRedis。非オープンソースの VMware GemFire用コネクタがベータ段階である。
  • MPP 分析データベース  - JaspersoftがIBMの Netezza MPP分析データベース データウェアハウスをサポートしており、すぐに商用の分析サポートを追加する。Vertica 、EMC Greenplum もサポートされている。

InfoQは、Jaspersoftで Technology Alliancesのシニア ディレクターである Andrew Lampitt氏にリリースについて聞いた。

Q:この発表は、他のBIベンダーが提供しているものと、どのように違いますか?

A: Jaspersoftは、いつも、余り知られていないデータフォーマットでのレポーティングを考慮してきました。

一般に、業界は、Hadoopでのレポーティングには、Hiveを使って、Hadoopに対してSQLクエリを実行する、という退屈なアプローチを取ってきた。Jaspersoftは、HDFSのファイル、すなわち直接にHBaseのサポートや様々なNo SQL技術に対するレポーティングを追加してきた。

Q: パフォーマンスのベンチマークは、行ったのですか?

 

A: これらは、第一あるいは第二世代のコネクターで、製品レベルの品質を意図していません。Jaspersoftは、プロジェクト オーナーがレポーティングの最初の成果を出せるように、どのようなベンダーともコラボしています。Jaspersoftは、いくつかの見込み顧客や既存の顧客と話して、第二あるいは第三レベルのフィードバックを得ています。

Q:これらのコネクターの採用や評価のレベルは、どうですか?

A: 我々には、それを使っている既存ユーザーとフィードバックを求めるための新しいユーザーがいます。この発表の背景の1つは、認知を高めることです。

我々は、顧客とベンダーの両方と一緒に開発しています。最も要望の高い企業のレポーティング要求は、何なのかを知りたいのです。

 

Q: このリリースの新しい機能は、何ですか?

A: コネクタが提供するのは、

  1. データ接続性 - MongoDB や Riakのようなものに対してカスタム データソースとして接続できます。
  2. カスタム クエリ エグゼキューター -  Non SQLや階層的なものなどを含んで、様々な種類のシステムに使われるクエリ言語/シンタックスが使えます。

Jaspersoftによって、ファイルをメモリに読み込み、そこで操作できます。

 

Neo4Jのようなグラフデータベースでのノードに対する分析は、キー-値 ストア形式のものとは、ずいぶん違います。

Q: 従来にないフォーマットで要約やスター スキーマに対するレポーティングをサポートしますか?

 

A: わかりません。オペレーショナル システムに対するレポーティングは、ウエアハウス用とは非常に違いますから。

MongoDBやRiakには、GUIレベルでデータを操作できます、例えば、要約するなど。しかし、それはこれまでの分析スタイルではありません。

我々は、NoSQLをOLTPへの新しいオプションと見ています。

 

A: ハイ、その限界はメモリです。必ずしも全データをクライアントのブラウザに持ってくることは、ありませんが、いつも全てをサーバ側 (JasperReports Server)に持ってきます。

Q: ファイルに戻すデータセットにフィルターをかけたり、そのサイズを最小にする方法はありますか?

A: 何でも可能です。しかし、それは、すぐに解決するものではありません。ローカルなCSVファイルでの問題に似ています。一般に、いつもその全てをメモリに持ってきます。ファイルをフィルターするのに、何がいい技術かは、明白なことではありません。

Q: Jaspersoftは、Hbaseに対しては、どのようにレポーティングするのですか?
A: Hbaseは、あるフィールドに一塊のバイト列を格納するだけです。これらのバイト列がどのようなオブジェクト型を表すかを知るための内蔵の方法はありません。我々のPOCバージョンのコネクタでは、リレーショナル テーブルをHBaseに変換しています。テーブルのプライマリ キー フィールドを ROW_IDとして使っています。他のカラム名をHBaseのFAMILYとして使っています。フィールド値をバイトに変換し、それを VALUEに使っています。データ型の情報を入れるために QUALIFIERを使っています。これによって、我々のコネクタは、各フィールドがどのデータ型かを知ることができます。他の製品も我々がやっているように、HBaseにデータをロードできるわけです(詳しくは、我々のHBaseローダーのソースコードを見てください)。
 
我々の次のステップは、プラグ可能なデシリアライズ エンジンを コネクタに実装することです。こうなると、コネクタは、あるフィールドからバイト列が出ていくときに、本当にシリアライズされたものを知ることになります。シリアライズは、Javaのシリアライズ、Googleの Protocol Buffers、あるいは他のシリアライズ方法が使えます。これによって、各フィールドのデータ型を「発見する」ことができます。そのため、JasperSoft iReport (デスクトップ レポート デザイナー)を使うとレポートの作成が非常に簡単になります。
 
HBaseに直接繋ぐことも、Thrift経由で繋ぐこともできることを知っておくのは、役に立ちます。HBaseと非常によく、一緒に使われるThriftは、オプションです。
---
 
コネクタの ダウンロード ページも見てください。

もし私がHadoopを使っている開発者で、データを見たいと思ったら、ファイルシステムに対してレポーティングすることになるでしょう。

Q: Hadoop / HDFSでファイルにクエリしたら、そのファイルの全てをメモリに持ってくるのですか?

この記事に星をつける

おすすめ度
スタイル

BT