Amazon Web Services社(AWS)は、ユーザーによるデータ検出と管理を簡素化を目的として設計された新機能、Amazon S3 メタデータを発表した。現在、米国東部(オハイオ州、バージニア州北部)リージョン、および米国西部(オレゴン州)リージョンでプレビュー版での利用が可能である。S3 メタデータでは、リアルタイムのメタデータ更新とAWS分析サービスとの統合を活用し、ユーザーによるS3データに対するクエリおよび分析が可能になっている。
Amazon S3 メタデータは、S3のオブジェクトメタデータの取得・整理を自動で行うことで、オブジェクトサイズ、ストレージクラス、暗号化ステータス、ユーザー定義タグなどのシステム定義プロパティに関するインサイトを提供している。この機能により、企業は以下のような幅広い用途で、より効果的なS3データのキュレート、特定、使用が可能になる。
- ビジネス分析
- リアルタイム推論アプリケーション
- AIモデルのトレーニング
S3オブジェクトの変更から数分以内にメタデータも更新されるため、ほぼリアルタイムの精度が保証されている。データは新しいバケットタイプ(テーブルバケット)であるS3 テーブルに保存され、テーブルがサブリソースとして保存される。
S3 メタデータはApache Icebergを採用しており、Icebergフルマネージドテーブルにメタデータを保存できる。この互換性により、Apache Spark、Amazon Athena、Amazon QuickSightなどのIceberg互換ツールを使用して、大規模なデータセットであっても高パフォーマンスなクエリ実行が可能になる。
Icebergを使用すると各更新ごとにテーブルに新しい行が作られるため、検索や分析に便利なオブジェクトの変更履歴が利用できる。
Structured Labs社のCEOであるAmrutha Gujar氏は、ブログで以下のように結論付けている。
Icebergを採用することで、AWS社はオープンテーブルフォーマットへ移行する業界傾向と足並みを揃えることになります。これにより、Apache SparkやFlinkといったツールとのインターオペラティビティに留まらず、S3ベースのアーキテクチャに対する将来を見据えた投資にもなります。
S3メタデータテーブルはAWS分析ツールとシームレスに統合され、堅牢なデータ処理と可視化が可能になる。主な統合には以下が含まれている。
- AWS Glue Data Catalog(現在プレビュー中)
- Amazon Athena、Redshift、EMR、QuickSightを利用したメタデータのストリーミングおよびクエリ
- Amazon Bedrockを利用した、S3に保存されているAI生成動画に対する、生成元、タイムスタンプ、使用モデルなどのメタデータアノテーションの付与
メタデータスキーマには、バケット名やオブジェクトキーから暗号化の詳細やユーザー定義タグまで、20以上の要素が含まれている。ユーザーは、アプリケーション固有のテーブルと結合することで、このデータをさらに充実させることができる。
S3メタデータを有効にするには、以下の3つの簡単なステップを実行する必要がある。
- テーブルバケットの作成:create-table-bucketコマンド、AWS マネジメントコンソール、またはAPIコールを使用して、メタデータ保存用のバケットを作成する。
- メタデータ設定のアタッチ:データバケットとメタデータテーブルをリンクするための設定ファイルを指定する。
- クエリの実行:Apache SparkやAWS Analytics サービスなどのツールを使ってメタデータをクエリすることで、オブジェクトストレージ、それに対する更新、その他の重要な詳細についてのインサイトが得られる。
(出典:AWS Newsブログ投稿)
以下はクエリの一例である。
spark.sql("SELECT key, size, storage_class, encryption_status FROM mytablebucket.aws_s3_metadata.my_table ORDER BY last_modified_date DESC LIMIT 10").show(false)
Kablamo社クラウドプリンシパル兼AWS コミュニティヒーローのIan Mckay氏は以下のようにツイートしている。
現在、S3バケットがクエリ可能型メタデータ(Icebergテーブル)機能をサポートするようになり、Athenaのなどのツールを使ったオブジェクトの作成、更新、削除をライブクエリで確認できるようになりました。増額コストが小さくはないので、利用前に価格の確認をお勧めします。
最後に、ユーザーはAmazon S3 コンソールのメタデータタブからS3メタデータの設定・管理もできる。価格は、メタデータテーブルに対する、更新回数(オブジェクトの作成、削除、メタデータの変更)およびストレージコストに基づいて設定される。価格情報の詳細はAmazon S3 料金ページで確認できる。