HortonworksはDataFlowプラットフォームの提供をひっそりと開始した。Apache NiFiをベースとして,IoATの処理ニーズ解決を目指す。
Hortonworksは先日のウェビナで,石油およびガス生産企業を対象に,DataFlow(HDF)プラットフォームの紹介を行った。HDFは,NSAが昨年オープンソース化したリアルタイムデータストリーミングおよび処理システムであるApache NiFiをベースにする。プロジェクトは当初,Niagarafilesという名称だった。NiFiがオープンソースになった時に,元NSAの開発者が数人で,開発プロジェクトの継続とサポートを提供する企業としてOnyaraを設立した。そのOnyaraをHortomworksが先頃買収して,開発者を自社のチームに統合したのだ。
NiFiは多種多様なソースのストリームデータに対して使用することができる。そのためHortonworksでは,HDFをIoAT(Internet o AnyThing, 何でもインターネット)に適していると考えている。HDFのデータフローは多方向かつポイント・ツー・ポイントである。ユーザは適切なストリームを使用して,センサやデバイスに至るまで,そのソースを突き止めることが可能だ。HDFはHDPと補完関係にある。HDPはかつてはデータ・イン・モーションを扱っていたが,現在ではHadoopをベースとしてデータ・アット・レストの問題解析を行う。
NiFiは,情報フローの詳細な管理能力,データに関するすべての事象 - どこから来たものか,これまでに何が行われたか - のトラッキング,コントロールプレーンとデータプレーンの安全性,といった,さまざまなコンセプトを念頭に開発されている。NiFiの主な機能は次のとおりである。
- データ配信の保証
- バックプレッシャ機構を有するデータバッファリング
- 優先順位付きのキュー
- QoS
- データ来歴(Data provenance) - NiFiはトレーサビリティ,データのリカバリと再生,監査,評価を可能にすることにより,データに施されたすべての変更履歴を記録する。
- データの詳細な履歴のログ
- システム変更に関する視覚的なフィードバックを提供する対話型コマンドと制御コンソール
- フローテンプレート
- プラグイン可能なマルチロールセキュリティ
- 拡張性
- クラスタリング
NiFiはIoTに限らず,予測分析や不正検出,ビッグデータ収集,リソース評価といった,あらゆる種類のリアルタイムデータ処理のニーズに対応する。エンコード,暗号化,圧縮,変換,データフローからのHadoopシーケンスファイル生成,AWSとのデータ交換,Kafkaへのメッセージ送信,Twitterからのメッセージ取得など,90のデータプロセッサが予め用意されている。データプロセッサはドラッグ・アンド・ドロップによる視覚的UIを通じて構成が可能で,連結したり,データフロー制御のためのバックプレッシャを設定することができる。スケーラビリティや要求のレプリケーション,ロードバランシング,フェールオーバといった機能も備えている。
ロードマップからは,フロー構成管理の改善,エクステンションとテンプレート用のレジストリ,Avroのファーストクラスサポート,インタラクティブなキュー管理,マルチテナントデータフローなどの項目を確認することができる。
HDFのテストは,Apache Ambariを使用したサンドボックス環境で実行可能だ。