InfoQ ホームページ Resilience に関するすべてのコンテンツ
-
カオスエンジニアリングによるAPIの回復力の向上
Gremlinチームは、組織のAPIが回復力があることを検証する方法として、シンプルなカオス実験を説明した。「game days」(ITシステムや人々のための消防訓練)を実行するように、カオス工学と技術の原則を使うことで、この新興領域で商用およびオープンソースのツールを適切に使えるようになるという価値を提供することができる。
-
レジリエンスなシステムはなぜ必要なのか - QCon LondonでTammy Butow氏がカオスエンジニアリングを論じる
Tammy Butow氏はQCon Londonで講演し、よりレジリエントなシステムが求められている理由と、それがカオスエンジニアリングのプラクティスによっていかに実現されるかを説明した。講演ではカオスエンジニアリングのための3つの主要な前提条件 -- 重要度の高い“SEV”インシデントの管理、監視、及び影響度の測定 -- が提示され、ガイドラインとツール、プラクティスが紹介された。
-
BloombergがKubernetes用のオープンソースのカオステストツール“PowerfulSeal”をリリース
先日のKubeCon North Americaカンファレンスで、Bloombergがオープンソースの“PowerfulSeal”ツールを新たに公開した。対象となるポッドと基盤のノードインフラストラクチャを停止させることで、Kubernetesクラスタ内でのカオステストを可能にするツールだ。
-
Twillioにおけるカオスエンジニアリング
Twilioチームがカオスエンジニアリングへの進出について説明している。Gremlinを使って自社製のキューシステムの一部に障害を注入し、自動回復のテストを行なう。
-
Expediaにおけるサイトのレジリエンス向上への取り組みとカオステストの導入 - QCon SFでの講演より
QCon SFにおいて、Sahar Samiei、Willie Wheeler両氏が“Expedia's Journey Toward Site Resiliency”と題したプレゼンテーションを行い、Expediaでのレジリエンステストに関するプラクティスのコミュニティ構築について論じた。結果は概ね望ましいものだった – 運用システムでは5月15日以降、NetflixのChaos Monkeyが毎日実行されるようになり、4つのTier 1サービスパイプラインにレジリエンステストが追加された。
-
Adrian Cockcroft氏の論じるカオスアーキテクチャ - “4つのレイヤ、2つのチーム、ひとつの考え方”
先日のQCon San Franciscoでは、Adrian Cockcroft氏が“Chaos Architecture”について講演し、クラウドネイティブアーキテクチャの進化と、より安全で安全なシステムを生み出す上でカオスエンジニアリングがどのように適用可能かを論じた。その中で氏は、効果的なカオスアーキテクチャとエンジニアリングは“4つのレイヤ、2つのチーム、ひとつの考え方”で構成されると説明した。
-
レジリエントなサービスを設計する - Nora Jones氏がQCon SFでNetflixのカオスエンジニアリングを論議
QCon San SFでNora Jones氏が、“Designing Services for Resilience Experiments: Lessons from Netflix”と題したプレゼンテーションを行なった。講演の主な内容は次のようなものだ – カスタマエクスペリエンスが重要である。レジエンスのテスト容易性を設計することは共通の責務である。構成の変更はシステム停止を引き起こす可能性がある。エンジニアは設定変更のアンチパターンを見つけ出すための明示的な監視を行なうことが必要だ。
-
自分の冒険を選択せよ - カオス工学、QCon New York 2017にて
NetflixのシニアカオスエンジニアであるNora Jones氏が、QCon New York 2017でカオス工学(chaos engineering)について講演した。その中で氏は、カオス工学の導入に関するさまざまなステージを示すとともに、JetとNetflixでの自身の経験について話した。
-
Chaos Monkeyアップデート
NetflixはChaos Monkeyのアップグレードを発表した。Chaos MonkeyはSoftware as a Serviceの弾力性を改善するための汎用ツールであり、サービス提供時間中にランダムにサーバやコンテナを停止する。Rags SrinivasがNetflixのLorin Hochsteinにこのアップグレードについて話を聞いた。
-
Chaos Monkey 2.0はSpinnaker経由で動作する
Netflixは最近、Chaos Monkey 2.0のソースコードを公開した。このレジリエンスツールの最新リリースは、Spinnakerとイベントトラッキングシステムに完全に統合され、SSHサポートが削除されている。
-
GoogleがGit Ketchをキックオフ - フォールトトレラントなGit管理システムの実現へ
開発が始まったばかりではあるが,GoogleがGit Ketchの最初のコミットを発表した。レジリエンスとスケーラビリティを目的として複数のGitサーバに情報を複製する,マルチマスタのGit管理システムである。JavaベースのGitサーバであるJGitをベースとして変更を加えているが,それ以外のGitサーバでもマルチマスタのクラスタに参加することができる。
-
Microsoft、マイクロサービス構築のためのプラットフォームを公開
MicrosoftがAzure Service Fabric (ASF)を発表し、そのプレビューを公開した。これはマイクロサービスを作成、実行、管理するための、ランタイムおよびライフサイクルマネジメントツールを含むクラウドプラットフォームだ。ASFマイクロサービスは、AzureもしくはWindows Serverのプライベートクラウドおよびホステッドクラウド上のオンプレミスにデプロイできる。将来はLinuxもサポートされるようだ。
-
失敗を扱うアンチパターン
Oliver Hankeln氏が、組織で失敗を扱う場合のアンチパターンを紹介する。アンチパターンには、失敗を隠すこと、お互いに非難し合うこと、非難し続けること、臆病になることがあり、それぞれの対処方法を提案する。
-
Netflixは218台のCassandraノード再起動にどう対処したのか
Amazonは9月末,メジャーアップデートメンテナンスを実施した。同社クラウドサーバ群のおよそ10%に影響する,Xenハイパーバイザのセキュリティ上の脆弱性に対するパッチの実施が目的だ。今回のアップデートではそれらのサーバを再起動する必要があったため,結果的に同社の最大顧客であるNetflixを含むAWSユーザ,およびその提供するサービスに影響が及んだ。
-
TypeSafeのKevin Webber氏が語る,リアクティブシステムにおけるアクタベースの並行性
先日のMediumの記事で,TypeSafeのKevin Webber氏は,リアクティブプログラミングについて,レスポンシブでレジリエント,スケーラブルなシステム構築を支援する意味から,"単なる新たなトレンドではなく,現代のソフトウェア開発者が学ぶべきパラダイム"である,と論じた。さらに,リアクティブシステムにおいてもっとも有益な基盤となるのはアクタベースの並行性だ,とも述べている。