全てのものをストリーミング：効果的なデータストリーム処理のパターンを探る、QCON SFでのAdi Polak氏講演

原文リンク(2024-11-29)

Confluent社のDirector of Advocacy and Developer Experience Engineering Adi Polak氏が直近のQCon San Franciscoで「全てのものをストリーミング—効果的なデータストリーム処理のパターン」を講演した。Polak氏の講演はデータストリーミングの持続的な課題をハイライトし、組織がスケーラブルで効率的なデータストリーミングパイプラインを管理するのに役立つ実用的なソリューションを明らかにした。

10年にわたる技術の進歩にもかかわらず、データストリーミングは長い間、組織にとって長い間大きな課題となっている。チームはダウンストリーム出力エラーや最適でないパイプラインのパフォーマンスのような問題のトラブルシューティングに、彼らの労力の80%をよく費やしている。Polak氏は理想的なデータストリーミングソリューションに期待される中核的な要件として信頼性、多様なシステムとの互換性、低レイテンシー、スケーラビリティ、高品質なデータを挙げた。

しかし、これらの要求を満たすには、スループット、リアルタイム処理、データ整合性、エラーハンドリングなどの主要課題に取り組む必要がある。講演では、AI駆動アプリケーションに対するインフラの適応において、正確に1回のセマンティクス、結合操作、データの整合性の確保といった高度な側面に焦点が当てられた。

Polak氏はデータストリーミングパイプラインの複雑さに対処するデザインパターンをいくつか紹介した。これには、エラーマネジメントのためのDead Letter Queues（DLQ）や、システム間で正確に1回の処理を保証するためのパターンなどが含まれる。

正確に1回のセマンティクス

正確に1回のセマンティクスを達成することが、信頼性の高いデータ処理の要石であることは変わらない。Polak氏はレガシーなLambdaアーキテクチャと、リアルタイムイベント、状態、および時間をより決定論的に処理するモダンKappaアーキテクチャを対比した。彼女は、Apache KafkaやApache Flinkのようなツールを使う2フェーズコミットプロトコルを通して正確に1回の保証を実装する方法を説明した。オペレータはプレコミットを行い、次にシステム全体のコミットを実行することで、個々のコンポーネントが失敗しても一貫性を確保する。ウィンドウベースの時間計算（例えばタンブリングウィンドウ、スライディングウィンドウ、セッションウィンドウ）は、決定論的処理をさらに強化する。

結合操作

データストリームの結合－ストリームとバッチの組み合わせや2つのリアルタイムストリーム－は複雑だ。Polak氏は、結合時にシームレスな統合と正確に1回のセマンティクスを確実にするためには正確な計画が必要であることを強調した。

エラーハンドリングとデータの整合性

データの完全性は信頼できるパイプラインにとって極めて重要であることが強調された。Polak氏は、スキーマの検証、バージョン管理、スキーマレジストリを使用したシリアライズを含む、「ゲートを守る」コンセプトを紹介した。このような対策により、物理的、論理的、参照整合性を確保し、「良いデータに悪いことが起こる」のを防ぐ。Jiraと統合された自動化エラー処理ツールのようなプラグ可能な障害エンリッチャーは、ラベル付けとシステム的にエラーを解決するためのソリューションとして紹介された。

Polak氏はデータストリーミングとAI駆動のユースケースの拡大する接点を探求することで締めくくった。不正検知、動的パーソナライゼーション、リアルタイム最適化を行うかどうかに関わらず、AIシステムの成功は堅牢でリアルタイムなデータインフラに依存している。彼女は、AIアプリケーションの高スループットと低レイテンシーの要求をサポートするパイプライン設計の重要性を強調した。

最後に、Polak氏は効果的なデータストリーミングのための重要な洞察を聴衆に提供した：

データ品質を優先し、エラー管理のためのDLQを実装する。
堅牢なアーキテクチャを使ってシステム全体で正確に1回の保証を確保する。
本質的に困難な結合操作に対して厳密に計画する。
健全なエラーハンドリングは、明確なラベリングと体系的な解決から始まる。

作者について

Steef-Jan Wiggers

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

バーチャルパネル：大規模言語モデルを採用する際の考慮点

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Steef-Jan Wiggers

この記事に星をつける

このコンテンツのトピックは QCon です。

関連記事:

関連記事

関連スポンサーコンテンツ

GitHub Universe 2024、AIイノベーションと開発者向けツールを発表

Amazon QがVisual Studio CodeとJetBrains IDEsにインラインチャットサポートを追加

Cloudflare、脆弱性報告のための標準規格security.txtの普及を提唱

アーキテクチュラル・インテリジェンス – 次のAI

全てのものをストリーミング：効果的なデータストリーム処理のパターンを探る、QCON SFでのAdi Polak氏講演

「OpenSearchクラスタのスケーリングでコスト削減へ」QCon San FranciscoでAmitai Stern氏が講演

ソフトウェアテスト自動化におけるAIの役割を探索する

ユーザー中心主義の開発者向けプラットフォームとプラクティスで顧客満足度を向上させる方法とは

スタートアップからスケールアップへの旅でイノベーティブであり続ける

Amazonが Amazon Nova、基盤モデルのシリーズを発表

QCon San Francisco 2024のAIとMLトラック - 生成AIと実用的アプリケーションを深掘り

マイクロソフトが汎用マルチエージェントシステム Magentic-Oneを発表

分散型トレースツールJaegerがOpenTelemetryを中核としたバージョン2をリリース

Grafanaのインシデント管理機能の向上でエンジニアの課題を解決

Timescale、AI対応のPostgreSQLをpgai Vectorizerで強化

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

InfoQ Dev Summit New York

Login with:

アカウントをお持ちでない方

全てのものをストリーミング：効果的なデータストリーム処理のパターンを探る、QCON SFでのAdi Polak氏講演

作者について

Steef-Jan Wiggers

この記事に星をつける

このコンテンツのトピックは QCon です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター