エンタープライズクラウドデータ企業のClouderaは先日、Cloudera Data Platform (CDP)上でハイブリッドストリーミングワークロードを処理するためのデータフローを提供する、クラウドネイティブサービスのCloudera DataFlow for the Public Cloudを一般供与(GA)開始すると発表した。Cloudera DataFlow for the Public Cloudを使うことで、複雑なデータフロー操作の自動化、自動スケーリング機能によるストリーミングデータフローの運用効率向上、インフラストラクチャのサイズ決定に関する当て推量を排除することによるクラウドコストの削減、といったことが可能になる。
Cloudera DataFlow for the Public Cloudの導入によって、同社のFlowOpsサービスにはいくつかの機能が加わった。例えば、
- 管理を容易にし、検索とバージョン管理を行う、Central Flow Catalog
- 複数のクラウドクラスタを対象とした監視、トラブルシュート、パフォーマンスチューニングを行う、Central Dashboard
- CDPが管理するKubernetes上でフローの自動スケールを実現する、シンプルなデプロイメントウィザードと堅牢なAPI
- ストリーミングの一般的ユースケースに対応する、ビルド済のフローである、"ReadyFlows"
Cloudera DataFlow for the Public Cloudは、スケーラブルなランタイムとして内部的にKubernetesを使用しており、その上に必要なNiFiクラスタをプロビジョンする。基盤となっているのは、完全に新規開発された最新のKubernetes Operatorで、これがKubernetes上のApache NiFiクラスタのライフサイクル管理を行う。このOperatorを経由することで、クラスタへのリクエストに対応したプロビジョニングを実現しているのだ。さらに、プロビジョニングが完了した後には、Apache NiFiの新バージョンへのアップデートやクラスタの停止といった、他の面でのライフサイクル管理もこのOperatorが行う。
ユーザはサービスに対して、CDP Control Planeを通じてアクセスする。このCDP Control Planeが、CatalogやDashboard、ReadyFlow Galleryといった、CDF-PCの重要なコンポーネントをホストしている。
出典: https://blog.cloudera.com/cloudera-dataflow-for-the-public-cloud-a-technical-deep-dive/
最近では多くの企業組織が、視覚的な方法で設計したノーコード・データフローを使って、複数のハイブリッドクラウドアーキテクチャにわたるデータのキャプチャとプロセスを行う手段として、Apache NiFiを活用している。この場合に課題となるのは、複数のデータフローをひとつのクラスタにデプロイすることによってリソース競合が発生し、パフォーマンス上の問題を引き起こすことだ。一部ではその対策として、インフラストラクチャを必要以上に大規模にしており、結果としてインフラストラクチャの利用率低下とコスト上昇を招いている。その他にもスケーリングや、フロー全体を概観する機能がないことも、問題となる可能性がある。
ClouderaのData-in-Motionでプロダクトマーケティングを統括するDinesh Chandeasekhar氏は、Clouderaのプレスリリースで次のように述べている。
Cloudera DataFlowはKubernetes上のクラウドネイティブなデータフローの自動化と管理を行います — これが、私たちの提供する唯一のサービスです。このサービスを使用することで、ストリーミングワークフローの運用効率の大幅な向上と、パブリッククラウドのインフラストラクチャコスト低減を、簡単に実現することができます。
Cloudera DataFlow for the Public Cloudは、まずはAmazon Web Services (AWS)プラットフォーム上で、続いてMicrosoft Azure上で提供される予定である。料金の詳細についてはpricing pageで確認することができる。