InfoQ ホームページ Failure に関するすべてのコンテンツ
-
BraintreeがThundering Herdに対処
BraintreeのエンジニアのAnthony Ross氏は、最近の記事で、失敗したタスク対する再試行間隔にランダムなジッターを導入することで、どのようにThundering Herd問題を解決したかを説明した。これは、支払い問題(Dispute)管理APIの効率に影響を与えていた。
-
MicrosoftがAzure Chaos Studioをパブリックプレビューで発表
最近開催されたIgniteで、MicrosoftはAzure Chaos Studioのパブリックプレビューを発表した。これは、フルマネージドの実験サービスだ。カオスエンジニアリングをコントロールして障害を追跡、測定、軽減されるように顧客をサポートし、クラウドアプリケーションの復元力を向上させることが目的だ。
-
”セーフ・トゥ・フェイル”アプローチによってチームに心理的安全性を確立する
企業は、従業員の中に"心理的安全性(psychological safety)"の文化 — 失敗が非難の対象ではなく、誰にも起こり得るものとして受け入れられる文化を確立することができる。"セーフ・トゥ・フェイル(safe-to-fail)"を企業文化の一部にするべきである。成功に対するイメージの転換は、失敗の所在をより深く理解することを可能にし、恐れを克服する勇気を我々に与えてくれる。
-
AWSがカオスエンジニアリング・アズ・ア・サービスの提供を発表
AWSは、カオスエンジニアリング・アズ・ア・サービスの次のリリースを発表した。フォールトインジェクションサービス(FIS)は、多数のAWSサービスにわたってフルマネージドのカオス実験を提供する。このサービスには、一般的な実世界のイベントを模倣した中断を生成するビルド済みのテンプレートが含まれている。APIを介してCIパイプラインに統合できる。
-
Cloudflare、27分間のサービスについて説明
Cloudflareで先頃、部分的なサービス停止が発生し、27分間にわたって続いた。これにより同社ネットワークのトラフィックが50パーセント低下している。
-
New LiveRecorder for Java Enables Software Failure Replay
LiveRecorder for Javaは、新たにリリースされたソフトウェア障害再生アプリケーションだ。これにより、開発者はアプリケーションの障害を記録し、IntelliJ で再生して障害の原因を見つけられる。特に間欠的故障を伴うデバッグ時間の短縮に役立つ。
-
障害モードとレジリエントなシステムの構築 - Adrian Cockcroft氏のQCon SFでの講演より
Adrian Cockcroft氏は先頃、障害発生時においても正常に運用できるレジリエントなシステムの構築方法について、自身の考えを公開した。氏は先日のQCon San Franciscoでも、継続的レジリエンスの考え方を備えたシステム構築において望まれる、クラウドのレジリエンスパターンについての私見を述べている。
-
どうやってうまくいっているのか?Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より
QCon New Yorkで、Ryan Kitchens氏が、"How Did Things Go Right? Learning More from Incidents"と題して講演した。主なポイントは次のとおりだ。リカバリは予防に優る; インシデントは"最悪の状況"が起きた時に発生するのであるから、根本原因(root cause)というものは存在しない; ユーザの幸福が何より重要である; システムがうまくいっている理由を知ることには大きな価値がある。
-
失敗を恐れないチームを育むには - QCon London Q&A
失敗を責めないこと(blameless failure)は,失敗を認め,共有し,調べ,修正し,予防する文化の構築から始まる – DevOpsおよびクラウドコンサルタントのEmma Button氏は,QCon London 2019でこのように述べた。CI/CDプラクティスによってシステムの健全性と状態を視覚化すれば,信頼性とオーナシップが向上するだけでなく,問題が発生した時の支援も受けやすくなる。
-
Twillioにおけるカオスエンジニアリング
Twilioチームがカオスエンジニアリングへの進出について説明している。Gremlinを使って自社製のキューシステムの一部に障害を注入し、自動回復のテストを行なう。
-
継続的デリバリの計測方法
継続的デリバリを導入する場合、安定性とスループットを計測できる。このふたつのメトリクスは不確実性を減らし、とのようなやり方を拡大したり縮小したりするべきかについてより良い選択肢を提示し、継続的デリバリのプロセスを正しい方向に進めるのに役に立つ。
-
Azure IaaS Disaster Recoveryパブリックプレビュー発表
先日の発表でMicrosoftは、Azure Site Recovery(ASR)を使用したIaaS(Infrastructure-as-a-Service)ディザスタリカバリのパブリックプレビューに関する詳細をリリースした。ASRサービスを使用することで、ひとつのAzureリージョン内のIaaSワークロードを保護すると同時に、同じ地理クラスタ内の別のAzureリージョンに複製することができる。
-
デッドコードは取り除かなければならない
デッドコードは、見つけて、取り除く必要がある。デッドコードを残しておくと、プログラマの理解と行動を妨げることがあり、コードが実行されて、重大な問題を引き起こすリスクもある。 デッドコードの削除は、技術的な問題ではない。それは考え方と文化の問題だ。
-
人為的ミスにより AWS S3 が US-EAST-1 で停止
手違いによって本来より多くの S3 サーバが停止した。これには2つの重要なサブシステムも含まれていた。S3は不具合を起こし、S3 サービスやこれに依存する他のサービスにも影響は及んだ。復旧にはおよそ4時間が掛かった。
-
インプロビゼーション実行者のコードとQConSF
即興(インプロビゼーション)ゲームを通じて,Ted DesMaisons氏とLias Rowland氏は,よりよい生活をおくるための3つのハックとして,“失敗を受け入れる,“はい”を言う,コントロールを共有する”,という3つを紹介した。