InfoQ ホームページ Data-Pipelines に関するすべてのコンテンツ
-
Canva、SNS+SQSよりAmazon KDSを選択し、1日250億件のイベントで85%の節約を実現
Canvaは、同社のProduct Analytics Platformのために、AWS SNSとSQSの組み合わせ、MKS、Amazon KDSなど、さまざまなデータメッセージングソリューション群を評価し、主に費用面での大きな優位性から最終的にAmazon KDSを選択した。同社は、パフォーマンス、メンテナンスの労力、コストなど、これらのソリューションに対して多くの側面から比較を行った。
-
Netflix、MaestroとApache Icebergを使ったインクリメンタル処理ソリューションを構築
Netflixは、データ・プラットフォームにおけるインクリメンタル処理のための新しいソリューションを構築した。インクリメンタルアプローチは、完全なデータセットの処理を避けるため、コンピューティングリソースのコストと実行時間を大幅に削減する。同社は、Maestro workflow engineとApache Icebergを使用して、データの鮮度と精度を向上させ、マネージドバックフィル機能を提供する予定である。
-
ファイザー、AWS上のサーバーレスアーキテクチャを使用してデジタルバイオマーカーの処理を拡張
ファイザーは、デジタルバイオマーカーデータを大規模に処理するためのサーバーレスアーキテクチャをアップグレードし、より柔軟で設定可能なものにした。彼らは、AWS Step Functionsと他のサーバーレスサービスで構築されたファイル処理パイプラインと、データ取り込みと処理のためのカスタムPythonパッケージを使用するフレームワークを作成した。
-
MLOps を拡張および進化させるための戦略と原則 - QCon Londonから
QCon Londonにて、DoorDashのMachine Learning PlatformのシニアエンジニアリングマネージャーHien Luu氏は「Strategies and Principles to Scale and Evolve MLOps at DoorDash」と題した講演で、MLOpsのスケーリングと進化に関する洞察を発表した。Luu氏は,MLシステムが製品に価値を提供しないという,企業が直面しがちな課題を克服するための3つの原則を挙げ、DoorDashにおいてはこれらが有効であったことを説明した。
-
Uber Riderアプリでのデータ収集、標準化、大規模な利用
Uber Engineeringは最近、Uber Riderアプリからデータを収集、標準化、使用する方法を公開した。ライダーデータには、Uberアプリとのライダーのインタラクションがすべて含まれる。このデータは、Uberのオンラインシステムからの毎日の何十億ものイベントを表している。Uberはこのデータを使って、ファンネルコンバージョンの増加、ユーザエンゲージメントなどの主要な問題領域に対処する。
-
QCon Plus November 2021はオンラインと対面(NYとSF)のハイブリッドで開催
QCon Plusソフトウェア開発会議は、2021年11月1日から5日までオンラインおよび対面で開催される。世界で最も革新的なソフトウェア組織内で変化と革新を推進する専門家と関わり、ネットワークを築く機会を手に入れましょう。
-
AirbnbがHimejiを構築 - スケーラブルな中央認証システム
Airbnbは最近、スケーラブルな集中認証システムであるHimejiをどのように構築したかについて説明した。Himejiは、信頼できる唯一の情報源として、パーミッションデータを保存し、パーミッションチェックを実行する。シャーディングおよびレプリケートされたインメモリキャッシュを使って、パフォーマンスを向上させ、レイテンシを短縮し、本番環境で約1年間チェックを行ってきた。
-
BBCの分析プラットフォームの失敗に備えた設計
先週のInfoQ Liveで、BBCのプリンシパルシステムエンジニアであるBlanca Garcia-Gil氏が、データプラットフォームの進化する分析のセッションを行った。このセッション中、Garcia-Gil氏は、チームが「既知の未知」と「未知の未知」という2種類の障害にどのように備えて設計したかに焦点を当てた。
-
PayPalは、次世代のデータ移動プラットフォームとしてApache AirflowとApache Gobblinを標準化
PayPalは最近、次世代のデータ移動プラットフォームを実装するために、Apache AirflowとApache Gobblinでどのように標準化されたかについて説明している。 PayPalエンジニアリングブログの最近のブログ投稿で、PayPalの技術スタッフのシニアメンバーであるJay Sen氏は、既存のデータ移動プラットフォームが複雑で管理しにくいエコシステムで、多くのツールとプラットフォームにどのように進化したか、そして、新しい実装への移行について詳しく説明している。
-
データメッシュの原則と論理アーキテクチャの定義
データメッシュの概念は、大規模なデータ管理における共通的な問題に対処するための新たな手法を提供する。Zhamak Dehghani氏はデータメッシュの4つの原則を、対応する論理アーキテクチャと組織化構造によってさらに明確化した。
-
AWSがApache AirflowのAmazonマネージドワークフローを導入
先頃、AWSはApache Airflow (MWAA) 用のAmazonマネージドワークフローを導入した。これは、AWSでのApache Airflowのオープンソースバージョンの実行を簡素化し、抽出-変換-ロード (ETL) ジョブとデータパイプラインを実行するワークフローを構築するフルマネージドサービスである。
-
KSQLがConfluent Cloudで利用可能に
KSQLは、Apache KafkaのストリーミングSQLエンジンであり、現在、Confluent Cloud Platform上でフルマネージドサービスとして、利用量ベースの料金プランですべての顧客が利用できる。最近のブログ投稿で、ConfluentはConfluent Cloud KSQLの提供を発表した。
-
AmazonがAWS Glueに新しいストリーミングETL機能を導入
先頃、AmazonはAWS GlueがストリーミングETLをサポートすることを発表した。この新しい機能を使用すると、ストリーミングデータをオンザフライで準備し、数秒で分析できるようにする継続的取り込みパイプラインを簡単に設定できる。
-
Feature Storeで機械学習ライフサイクルを加速
Feature Storeは次世代のMLプラットフォームの中核であり、データサイエンティストがMLアプリケーションの提供を加速できるようにするものである。Mike Del Balso氏とGeoff Sims氏は最近、Spark AI Summit 2020 Conferenceで、フィーチャーストア主導のML開発について講演した。
-
Confluent Cloud、Apache KafkaをSaaSとして提供
Apache Kafkaは、分散型でフォールトトレラントなパブリッシュ-サブスクライブ方式のメッセージングプラットフォームで、もともとLinkedInによって開発、オープンソース化されたものだ。Kafka開発グループの元LinkedInエンジニアらが設立したConfluentが、AWS上でApache Kafkaをサービスとして完全にホスト・運用するサービス、Confluent Cloudを発表した。また、Confluentの2度目の年次Streaming Dataレポート結果についても見てみよう。