InfoQ ホームページ Resilience に関するすべてのコンテンツ
-
カオスエンジニアリングと可観測性 - Russ Miles氏に聞く
O'Reillyの新しいレポート "Chaos Engineering Observability: Bringing Chaos Experiments into System Observability"では,筆者のRuss Miles氏が,可観測性とカオスエンジニアリングは"密接に関連している"と考える理由が論じられている。エンジニアがカオス試験を実施する場合には,試験の対象とする下位システムに関して多くの問いかけをする必要が生じるはずだ,と氏は主張する。
-
レジリエントなサーバレスシステムの設計と構築 - QCon Londonでの John Chapin氏の講演より
QCon London 2019で行ったプレゼンテーションで,John Chapinは,サーブレステクノロジの基本と,レジリエントなサーバレスシステムの設計と構築を行う方法について解説した。さらに氏は,世界規模で分散された高可用性アプリケーションを構築し,AWS上の複数リージョンで運用する,というデモも披露した。
-
Russ Miles氏の講演より - 無視されるアーキテクトとカオスエンジニアリング
先日アムステルダムで開催されたEvent-Driven Microservices Conferenceで、Russ Miles氏は、アーキテクトにとって最大の課題は無視されることだ、と主張した。イベント駆動マイクロサービスのような優れたアイデアを持っていても、確かに素晴らしい、だが現状のニーズには複雑過ぎる、という反応をされることが多過ぎるのだ。
-
レジリエントなアーキテクチャを実現する方法
スケールするシステムを管理するには限界ぎりぎりまでシステムを追い込んでも、回復できるようにする必要がある。そして、障害を受け止めることも必要だ。Adrian Hornsby氏はふたつのブログ記事で、自身の10年以上にわたる大規模システム運用の経験と発見したパターンを共有している。
-
Netflixから“しなやかさ"を学ぶ - カオスエンジニアリングを論じたQCon NYでのHaley Tucker氏の講演より
QCon New YorkでHaley Tucker氏は、“UNBREAKABLE: Learning to Bend but Not Break at Netflix”と題して講演し、Netflixでのさまざまな役割を担当して学んだカオスエンジニアリングの経験について論じた。おもな内容は次のとおりだ - 障害分離のための機能シャーディング(functional sharding)の使用、RPC呼び出しの継続的なチューニング、小さなイテレーションでのカオス試験の実施、”カオスの原則”の適用。
-
LinkedInのカオスエンジニアリング - "LinkedOut"障害注入テストフレームワーク
LinkedIn Engineeringチームが先日、自らの“LinkedOut”障害注入テストフレームワークについて説明した。サービスのレジリエンスに関する仮説を構築し、LinkedInのA/BテストフレームワークであるLiXや、Invocation Context(CI)フレームワークを使用したコールスタックを通じて渡されるクッキー内のデータを介して、 障害トリガを注入することができる。障害シナリオにはエラー、遅延、タイムアウトなどがある。
-
カオスエンジニアリングによるAPIの回復力の向上
Gremlinチームは、組織のAPIが回復力があることを検証する方法として、シンプルなカオス実験を説明した。「game days」(ITシステムや人々のための消防訓練)を実行するように、カオス工学と技術の原則を使うことで、この新興領域で商用およびオープンソースのツールを適切に使えるようになるという価値を提供することができる。
-
レジリエンスなシステムはなぜ必要なのか - QCon LondonでTammy Butow氏がカオスエンジニアリングを論じる
Tammy Butow氏はQCon Londonで講演し、よりレジリエントなシステムが求められている理由と、それがカオスエンジニアリングのプラクティスによっていかに実現されるかを説明した。講演ではカオスエンジニアリングのための3つの主要な前提条件 -- 重要度の高い“SEV”インシデントの管理、監視、及び影響度の測定 -- が提示され、ガイドラインとツール、プラクティスが紹介された。
-
BloombergがKubernetes用のオープンソースのカオステストツール“PowerfulSeal”をリリース
先日のKubeCon North Americaカンファレンスで、Bloombergがオープンソースの“PowerfulSeal”ツールを新たに公開した。対象となるポッドと基盤のノードインフラストラクチャを停止させることで、Kubernetesクラスタ内でのカオステストを可能にするツールだ。
-
Twillioにおけるカオスエンジニアリング
Twilioチームがカオスエンジニアリングへの進出について説明している。Gremlinを使って自社製のキューシステムの一部に障害を注入し、自動回復のテストを行なう。
-
Expediaにおけるサイトのレジリエンス向上への取り組みとカオステストの導入 - QCon SFでの講演より
QCon SFにおいて、Sahar Samiei、Willie Wheeler両氏が“Expedia's Journey Toward Site Resiliency”と題したプレゼンテーションを行い、Expediaでのレジリエンステストに関するプラクティスのコミュニティ構築について論じた。結果は概ね望ましいものだった – 運用システムでは5月15日以降、NetflixのChaos Monkeyが毎日実行されるようになり、4つのTier 1サービスパイプラインにレジリエンステストが追加された。
-
Adrian Cockcroft氏の論じるカオスアーキテクチャ - “4つのレイヤ、2つのチーム、ひとつの考え方”
先日のQCon San Franciscoでは、Adrian Cockcroft氏が“Chaos Architecture”について講演し、クラウドネイティブアーキテクチャの進化と、より安全で安全なシステムを生み出す上でカオスエンジニアリングがどのように適用可能かを論じた。その中で氏は、効果的なカオスアーキテクチャとエンジニアリングは“4つのレイヤ、2つのチーム、ひとつの考え方”で構成されると説明した。
-
レジリエントなサービスを設計する - Nora Jones氏がQCon SFでNetflixのカオスエンジニアリングを論議
QCon San SFでNora Jones氏が、“Designing Services for Resilience Experiments: Lessons from Netflix”と題したプレゼンテーションを行なった。講演の主な内容は次のようなものだ – カスタマエクスペリエンスが重要である。レジエンスのテスト容易性を設計することは共通の責務である。構成の変更はシステム停止を引き起こす可能性がある。エンジニアは設定変更のアンチパターンを見つけ出すための明示的な監視を行なうことが必要だ。
-
自分の冒険を選択せよ - カオス工学、QCon New York 2017にて
NetflixのシニアカオスエンジニアであるNora Jones氏が、QCon New York 2017でカオス工学(chaos engineering)について講演した。その中で氏は、カオス工学の導入に関するさまざまなステージを示すとともに、JetとNetflixでの自身の経験について話した。
-
Chaos Monkeyアップデート
NetflixはChaos Monkeyのアップグレードを発表した。Chaos MonkeyはSoftware as a Serviceの弾力性を改善するための汎用ツールであり、サービス提供時間中にランダムにサーバやコンテナを停止する。Rags SrinivasがNetflixのLorin Hochsteinにこのアップグレードについて話を聞いた。