AWSは先日、Amazon RDS for MySQLとAmazon RedshiftとのZero ETL統合が一般的に利用可能になったと発表した。この機能により、トランザクションデータに対するほぼリアルタイムのアナリティクスと機械学習が可能になる。単一のRDSデータベースから複数の統合を可能にし、カスタマイズされたレプリケーションのためのデータフィルタリングを提供する。
Amazon RDS for MySQLとAmazon RedshiftのZero ETL統合のGAリリースは、Amazon Aurora MySQL-Compatible EditionのAmazon RedshiftとのZero ETL統合の先行リリース、Aurora PostgreSQL-Compatible Edition、Amazon DynamoDB、RDS for MySQLのプレビューリリースに続くものだ。GAリリースでは、AWS CloudFormationによるZero ETL統合の構成、ソースデータベースから最大5つのAmazon Redshiftデータウェアハウスへの複数統合の構成、データフィルタリングなどの機能が期待できる。
AWSのシニアデベロッパーアドボケイトであるMatheus Guimaraes氏は、データフィルタリングについて次のように書いている。
規模の大小に関わらず、ほとんどの企業はETLジョブにフィルタリングを追加することで利益を得られます。典型的なユースケースは、本番データベースからレプリケートするために必要なデータのサブセットだけを選択することで、データ処理とストレージのコストを削減することです。また、レポートのデータセットから個人を特定できる情報(PII)を除外することもあります。
ユーザーは、RDSデータベースからAmazon RedshiftにデータをレプリケートするZero ETL統合を作成し、機械学習、マテリアライズドビュー、データ共有、複数のデータストアやデータレイクへの連携アクセス、Amazon SageMaker、Amazon QuickSight、その他のAWSサービスとの統合など、Amazon Redshiftの組み込み機能を使用して、ほぼリアルタイムの分析、ML、AIワークロードを可能にできる。
AWS Management Console、AWS Command Line Interface(AWS CLI)、またはAWS SDKを使用してZero ETL統合を作成するには、ユーザーはソースとしてRDSデータベースを指定し、ターゲットとしてAmazon Redshiftデータウェアハウスを指定する。このzero-ETL統合はソースデータベースからターゲットデータウェアハウスにデータをレプリケートする。
(出典:AWSドキュメント)
Quantiphi AnalyticsのテクニカルアーキテクトであるRajas Walavalkar氏は、Zero-ETLを紹介する1つのブログ記事で、なぜZero-ETLデータパイプラインが組織にとって有益なのかを説明している。
- リアルタイム分析:企業はタイムリーな意思決定のためにリアルタイムな洞察(インサイト)に頼っている。Zero ETLは、Aurora MySQLからRedshiftに直接データを転送することで、ほぼリアルタイムの分析を可能にし、企業に競争力を与える。
- データの鮮度:Zero ETLは、データを滞りなくRedshiftに取り込むことで、正確な洞察に不可欠なデータの鮮度を維持する。
- データ履歴の取得:トレンドの分析には、運用データベースの絶え間ないCRUD操作のためにデータ履歴を維持する必要がある。
- スケーラビリティと柔軟性:Zero ETLアーキテクチャはシームレスなスケーラビリティを促進し、組織は従来のETLの制約を受けることなく、変化するビジネスニーズに適応できる。
最後に、Zero ETL統合は、サポートされているAWSリージョンにおいて、RDS for MySQLバージョン8.0.32以降、Amazon Redshift Serverless、Amazon Redshift RA3インスタンスタイプで利用できる。