InfoQ ホームページ Resilience に関するすべてのコンテンツ
-
Google Cloud、デュアルリージョン構成でSpannerを強化
Google Cloudは、フルマネージド分散SQLデータベースサービス「Spanner」の重要なアップデートとして、デュアルリージョン構成オプションの提供を発表した。同社はこの機能強化により、高可用性を確保しつつ、クラウドのサポートが限定的な国々にまたがるデータレジデンシー基準を遵守する企業の支援を目的としている。
-
QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング
先日開催されたQCon Londonカンファレンスにて、Trainline社のCTOが、過去5年間における同社のシステム・アーキテクチャと組織構造の進化について講演した。同社は、テクノロジー・プラットフォームの性能と信頼性を向上させることで、市場の変化と顧客からの期待の高まりに応える必要があった。
-
AWSの ゾーンオートシフト:インフラの信頼性の最適化
Amazon Route 53 Application Recovery Controllerの新機能であるゾーンオートシフトは、クラウド・プロバイダーによって潜在的な障害が特定されると、アベイラビリティ・ゾーン(AZ)からトラフィックを自動的にシフトである。AZの障害が解決されると、サービスはトラフィックをリダイレクトして戻す。
-
InfoQ & QConイベント:生成AI、セキュリティ、プラットフォームエンジニアリングなどのレベルアップを図る
ソフトウェアシステムを構築・運用するチームにとって、短期的・長期的に重要な優先事項をナビゲートする必要性は、かつてないほど差し迫っている。ソフトウェアの専門家として、私たちは読者諸氏が常に解決策を必要とする課題に直面していることを理解している。生成AI、スケーリングクラウドネイティブアーキテクチャ、パフォーマンスエンジニアリング、レジリエンス、最新の分散システム設計といったトピックは、もはや単なるバズワードではなく、実質的にすべてのソフトウェア開発ロードマップにおいて極めて重要な要素となっている。
-
SlackがAWS上のセルベースのアーキテクチャに移行し、グレーの障害を軽減
Slackは過去1年半の間に、重要なユーザー向けサービスの大半をモノリシックからセルベースのアーキテクチャに移行した。この移行は、単一のアベイラビリティ・ゾーンに影響を及ぼすネットワーク停止の影響により、ユーザーに影響を与えるサービス低下が引き金となった。新しいアーキテクチャでは、5分以内に影響を受けたアベイラビリティゾーンからすべてのトラフィックを段階的に排出できる。
-
カオスエンジニアリングサービスAzure Chaos Studioの一般提供を開始
信頼性実験サービスAzure Chaos Studioが、パブリックプレビューから2年を経て、一般利用可能になった。最新の機能としては、実験テンプレート、ダイナミックターゲット、負荷テストフォルトなどがある。
-
インシデント解決にレジリエンスはどのように役立つのか?
社会技術システムを全体的に見ることによって、インシデントのライフサイクルを通じてレジリエンスを適用することは、インシデントが学習の機会となる。レジリエンスは、人々がインシデントの解決にうまく対応できるようになり、コラボレーションを改善するのに役立つ。また、組織が計画を実現するための時間を確保できる。
-
NetflixのRENOがデバイス間で一貫したエクスペリエンスを実現する
Netflixは、多種多様なプラットフォームやデバイスにおいて一貫したユーザエクスペリエンスを実現するために、Rapid Event Notification System(RENO)を開発した。RENOは、タイトルの視聴からプロファイル情報の更新に至るまで、ユーザの実行したアクションに対して、従来の要求/応答モデルよりも迅速かつ確実に応答する。
-
Failsafe 3.2が新たなレジリエンスポリシをリリース
Java 8以降を対象とする軽量なフォールトトレランスライブラリであるFailsafeが、2021年11月、メジャーリリースとなる3.0をローンチした。さらに、先日発表されたバージョン3.2では、Rate LimiterおよびBulkheadポリシが追加されている。JavaのCompletableFutureのような、非同期コードとの統合も可能だ。
-
AWS US-EAST-1の停止: ポストモーテムと学んだ教訓
12月7日、AWS は、最も人気のあるリージョンのバージニア北部で多くのサービスに影響を与える1時間の停止を経験した。同クラウドプロバイダは、AWS の冗長性とマルチリージョンアプローチについて、コミュニティのスレッドを開始してインシデントの分析を公開した。
-
AmazonがRPOとRTOを監視・改善するためのAWS Resilience Hubを発表
Amazonは最近、AWS Resilience Hubが利用できるようになったことを発表した。これは、顧客がクラウド上のアプリケーションの復元力の定義、測定、管理をサポートするために設計されたサービスである。
-
Apache Flink、Kafka、およびPinotを使用したUberでのリアルタイムの正確に1回のイベント処理
UberEats に広告を導入した後、Uber はいくつかの困難に直面した。生成したイベントは、迅速、確実、正確に処理する必要があった。これらの要件は、広告イベントのストリームを正確に1回のセマンティクスでリアルタイムに処理する、Apache Flink、Kafka、および Pinot をベースにしたシステムによって満たされた。このアーキテクチャを説明する記事が最近 Uber Engineering ブログに公開された。
-
MicrosoftがAzure Chaos Studioをパブリックプレビューで発表
最近開催されたIgniteで、MicrosoftはAzure Chaos Studioのパブリックプレビューを発表した。これは、フルマネージドの実験サービスだ。カオスエンジニアリングをコントロールして障害を追跡、測定、軽減されるように顧客をサポートし、クラウドアプリケーションの復元力を向上させることが目的だ。
-
Litmus 2.0リリースでマルチテナンシー、カオスワークフロー、GitOps、可観測性を提供
先月、Litmus 2.0が一般向けとしてリリースされた。カオスエンジニアリングを簡素化することを目的としており、カオスセンター、カオスワークフロー、カオス用GitOps、マルチテナンシー、可観測性、プライベートカオスハブなどの新機能を追加している。InfoQは、ChaosNativeのCEOであり、Litmusエンジニアリングプラットフォームの共同作成者および保守担当者のUmasankar Mukkara氏にインタビューした。
-
レジリエントな企業がより多くのインシデントを求める理由
John Egan氏によると、インシデント管理プロセスは単なるインシデントへの対応だけではない。根本原因を報告して、社内プロセスと業界全体のプラクティスを更新するサイクルなのだ。インシデント報告のバリアを低くし、非難を伴わない事後分析を使った効果的なインシデントレビュー会議を実施して、分析結果をすべての人に公開すべきだ、というのが氏のアドバイスである。