InfoQ ホームページ Reliability に関するすべてのコンテンツ
-
NetflixのPushy:スケーラブルなウェブソケット・プラットフォームの進化:1億の同時接続を処理する
Netflixは、同社製品のプッシュ通知や様々なデバイス間の通信をサポートするWebSocketメッセージングプラットフォーム、Pushyの進化の詳細を共有した。Netflixのエンジニアは、プラットフォームのスケーラビリティと信頼性を確保し、新しい機能をサポートするために、Pushyのエコシステム全体で数多くの改善を実施した。
-
QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング
先日開催されたQCon Londonカンファレンスにて、Trainline社のCTOが、過去5年間における同社のシステム・アーキテクチャと組織構造の進化について講演した。同社は、テクノロジー・プラットフォームの性能と信頼性を向上させることで、市場の変化と顧客からの期待の高まりに応える必要があった。
-
Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化
Decathlon社は、全社的な推奨事項としてBackend For Frontend (BFF)アーキテクチャパターンを確立し、エンジニアリングチームでの採用のためのガイドラインを提供した。この4部構成のシリーズでは、このパターンを紹介し、その利点と潜在的な落とし穴を探る。同社はまた、BFFパターンを使用する代替案を共有し、アーキテクチャ上の検討事項をレビューしている。
-
Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達
Erlang仮想マシン(BEAM)上で実行されるアクターベースの高度な並行処理が可能な関数型言語であるGleamがバージョン1.0に到達した。これは、セマンティックバージョニングに基づいた下位互換性が保証され、運用システムで使用できるようになったことを意味する。
-
Uber、GraphQLサブスクリプションとKafkaでマイクロサービスを使用したスケーラブルなチャットを構築
Uberは、WAMPプロトコルを使用して構築されたレガシー・アーキテクチャを、GraphQLサブスクリプションを活用した新しいソリューションに置き換えた。新しいアーキテクチャを構築した主な要因は、信頼性、スケーラビリティ、オブザーバビリティ/デバッグ可能性、そして既存のソリューションを維持するチームの能力を妨げている技術的負債にまつわる課題であった。
-
AWSの ゾーンオートシフト:インフラの信頼性の最適化
Amazon Route 53 Application Recovery Controllerの新機能であるゾーンオートシフトは、クラウド・プロバイダーによって潜在的な障害が特定されると、アベイラビリティ・ゾーン(AZ)からトラフィックを自動的にシフトである。AZの障害が解決されると、サービスはトラフィックをリダイレクトして戻す。
-
Grab、Strimzi、AWS AddOns、EBSにてKubernetes環境のKafkaが持つ耐障害性を改善
GrabはKubernetes環境にあるKafkaのセットアップをアップデートし、耐障害性を向上させ、予期せぬKafkaブローカーの終了に備えて人による介入を完全に排除した。初期設計の欠点に対処するため、チームはAWS Node Termination Handler (NTH)と統合し、ターゲットグループのマッピングにLoad Balancer Controllerを使用し、ストレージをELBボリュームに切り替えた。
-
マイクロソフトがWell-Architected Frameworkをアップデート
マイクロソフトは先日、Azure上で最適化されたワークロードを設計・実行するためのWell-Architected Framework(WAF)の包括的なアップデートを発表した。
-
AWS、Well-Architected Frameworkを再編・統合
AWSは、Well-Architected Frameworkの6つの柱すべてに変更を加え、新たなアップデートを発表した。パフォーマンス効率とオペレーショナルエクセレンスの柱は、ベストプラクティスの数を減らすために再構築・統合された。その他の柱では、再利用可能なアーキテクチャパターンに関する推奨事項や手順など、実装ガイダンスが改善されている。
-
AWSがグローバルエンドポイントを使ってAmazon EventBridgeの可用性と信頼性を向上
最近、AWSは、サーバーレスイベントバスサービスAmazon EventBridgeにグローバ���エンドポイントと呼ばれる新機能を発表した。可用性と信頼性を向上させるためである。
-
ソフトウェアとクラウドサービスによる環境への影響の測定
ソフトウェアは、耐用年数の制限、あるいはエネルギー消費の増加に影響を及ぼす。クラウドサービスによって引き起こされる環境への影響を測定することが可能である。ソフトウェアアーキテクチャの設計により、必要なハードウェアと電力の量が決まる。ソフトウェアはハードウェアリソースに対して経済的か、あるいはを浪費となる。
-
Apache Flink、Kafka、およびPinotを使用したUberでのリアルタイムの正確に1回のイベント処理
UberEats に広告を導入した後、Uber はいくつかの困難に直面した。生成したイベントは、迅速、確実、正確に処理する必要があった。これらの要件は、広告イベントのストリームを正確に1回のセマンティクスでリアルタイムに処理する、Apache Flink、Kafka、および Pinot をベースにしたシステムによって満たされた。このアーキテクチャを説明する記事が最近 Uber Engineering ブログに公開された。
-
GitHubはいかにしてリレーショナルデータベースの信頼性と拡張性を改善したか
GitHubはこの数年間、サイトのリレーショナルデータベースをパーティション化し、データを複数の独立したクラスタに移行する作業を続けている。これにより、負荷を50パーセント削減すると同時に、データベース関連のインシデントを大幅に低減することができた、とGitHubエンジニアのThomas Maurer氏は述べている。
-
"分散システムの8つの嘘”を振り返る
Ably Blogの先日の記事では、Alex Diaconu氏が、"eight fallacies of distributed computing(分散コンピューティングの8つの嘘)"を振り返るとともに、それらに対処するためのいくつかのヒントを紹介している。そのDiaconu氏に、Ablyのエンジニアたちがそれらの誤謬にどう対処しているのか、詳しく聞くことができた。
-
IT運用のための人工知能(AI) - その概要
IT運用における人工知能(AIOps)の活用は、ディープラーニング、データストリーム処理、ドメイン知識に由来する高度な手法を組み合わせ、内外のソースから取得したインフラストラクチャデータを分析することによって、運用を自動化し、異常(通常と異なるシステム挙動)がサービス品質に影響を与える前に検出しようというものである。