InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

ログインして、InfoQのすべての体験をアンロックしましょう！お気に入りの著者やトピックの最新情報を入手し、コンテンツと交流し、限定リソースをダウンロードできます。

ログイン

または

アカウントをお持ちでない方

登録

InfoQ ホームページ Failure に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

カルチャー＆手法

DevOpsの原則とプラクティスを品質保証エンジニアとして適用する

DevOpsは自動化と開発チームとITチーム間のコラボレーションによってソフトウェア開発を効率化し、効率的なデリバリーを実現する。Nedko Hristov氏によると、テスターの好奇心、適応性、学習意欲はDevOpsに適している。失敗は建設的なマインドセットで捉えることができる；成長の機会を提供し、スキルやプラクティスの向上につながる。

Ben Linders 翻訳者 Hiroaki.Sugimura
投稿日 2025年5月27日午前1時30分
設計/アーキテクチャ

BraintreeがThundering Herdに対処

BraintreeのエンジニアのAnthony Ross氏は、最近の記事で、失敗したタスク対する再試行間隔にランダムなジッターを導入することで、どのようにThundering Herd問題を解決したかを説明した。これは、支払い問題（Dispute）管理APIの効率に影響を与えていた。

Sergio De Simone 翻訳者編集部T _
投稿日 2022年6月13日午後8時47分
Cloud

MicrosoftがAzure Chaos Studioをパブリックプレビューで発表

最近開催されたIgniteで、MicrosoftはAzure Chaos Studioのパブリックプレビューを発表した。これは、フルマネージドの実験サービスだ。カオスエンジニアリングをコントロールして障害を追跡、測定、軽減されるように顧客をサポートし、クラウドアプリケーションの復元力を向上させることが目的だ。

Steef-Jan Wiggers 翻訳者編集部T _
投稿日 2021年11月18日午後9時1分
カルチャー＆手法

”セーフ・トゥ・フェイル”アプローチによってチームに心理的安全性を確立する

企業は、従業員の中に"心理的安全性(psychological safety)"の文化 — 失敗が非難の対象ではなく、誰にも起こり得るものとして受け入れられる文化を確立することができる。"セーフ・トゥ・フェイル(safe-to-fail)"を企業文化の一部にするべきである。成功に対するイメージの転換は、失敗の所在をより深く理解することを可能にし、恐れを克服する勇気を我々に与えてくれる。

Ben Linders 翻訳者 h_yoshida _
投稿日 2021年11月3日午後7時34分
DevOps

AWSがカオスエンジニアリング・アズ・ア・サービスの提供を発表

AWSは、カオスエンジニアリング・アズ・ア・サービスの次のリリースを発表した。フォールトインジェクションサービス（FIS）は、多数のAWSサービスにわたってフルマネージドのカオス実験を提供する。このサービスには、一般的な実世界のイベントを模倣した中断を生成するビルド済みのテンプレートが含まれている。APIを介してCIパイプラインに統合できる。

Matt Campbell 翻訳者編集部T _
投稿日 2021年2月18日午前12時17分
DevOps

Cloudflare、27分間のサービスについて説明

Cloudflareで先頃、部分的なサービス停止が発生し、27分間にわたって続いた。これにより同社ネットワークのトラフィックが50パーセント低下している。

Aditya Kulkarni 翻訳者 h_yoshida _
投稿日 2020年9月10日午前12時45分
Java

New LiveRecorder for Java Enables Software Failure Replay

LiveRecorder for Javaは、新たにリリースされたソフトウェア障害再生アプリケーションだ。これにより、開発者はアプリケーションの障害を記録し、IntelliJ で再生して��害の原因を見つけられる。特に間欠的故障を伴うデバッグ時間の短縮に役立つ。

Johan Janssen 翻訳者 Ito Chihiro
投稿日 2020年9月4日午前4時21分
DevOps

障害モードとレジリエントなシステムの構築 - Adrian Cockcroft氏のQCon SFでの講演より

Adrian Cockcroft氏は先頃、障害発生時においても正常に運用できるレジリエントなシステムの構築方法について、自身の考えを公開した。氏は先日のQCon San Franciscoでも、継続的レジリエンスの考え方を備えたシステム構築において望まれる、クラウドのレジリエンスパターンについての私見を述べている。

Matt Campbell 翻訳者 h_yoshida _
投稿日 2020年2月11日午後8時40分
DevOps

どうやってうまくいっているのか？Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より

QCon New Yorkで、Ryan Kitchens氏が、"How Did Things Go Right? Learning More from Incidents"と題して講演した。主なポイントは次のとおりだ。リカバリは予防に優る；インシデントは"最悪の状況"が起きた時に発生するのであるから、根本原因(root cause)というものは存在しない; ユーザの幸福が何より重要である; システムがうまくいっている理由を知ることには大きな価値がある。

Daniel Bryant 翻訳者 h_yoshida _
投稿日 2019年10月17日午前4時10分
カルチャー＆手法

失敗を恐れないチームを育むには - QCon London Q&A

失敗を責めないこと(blameless failure)は，失敗を認め，共有し，調べ，修正し，予防する文化の構築から始まる – DevOpsおよびクラウドコンサルタントのEmma Button氏は，QCon London 2019でこのように述べた。CI/CDプラクティスによってシステムの健全性と状態を視覚化すれば，信頼性とオーナシップが向上するだけでなく，問題が発生した時の支援も受けやすくなる。

Ben Linders 翻訳者 h_yoshida _
投稿日 2019年4月15日午後11時27分
Twillioにおけるカオスエンジニアリング

Twilioチームがカオスエンジニアリングへの進出について説明している。Gremlinを使って自社製のキューシステムの一部に障害を注入し、自動回復のテストを行なう。

Hrishikesh Barua 翻訳者 h_yoshida
投稿日 2018年1月31日午前3時40分
継続的デリバリの計測方法

継続的デリバリを導入する場合、安定性とスループットを計測できる。このふたつのメトリクスは不確実性を減らし、とのようなやり方を拡大したり縮小したりするべきかについてより良い選択肢を提示し、継続的デリバリのプロセスを正しい方向に進めるのに役に立つ。

Ben Linders 翻訳者徳武聡
投稿日 2017年10月2日午後11時51分
Azure IaaS Disaster Recoveryパブリックプレビュー発表

先日の発表でMicrosoftは、Azure Site Recovery(ASR)を使用したIaaS(Infrastructure-as-a-Service)ディザスタリカバリのパブリックプレビューに関する詳細をリリースした。ASRサービスを使用することで、ひとつのAzureリージョン内のIaaSワークロードを保護すると同時に、同じ地理クラスタ内の別のAzureリージョンに複製することができる。

Kent Weare 翻訳者 h_yoshida
投稿日 2017年9月8日午前2時57分
デッドコードは取り除かなければならない

デッドコードは、見つけて、取り除く必要がある。デッドコードを残しておくと、プログラマの理解と行動を妨げることがあり、コードが実行されて、重大な問題を引き起こすリスクもある。デッドコードの削除は、技術的な問題ではない。それは考え方と文化の問題だ。

Ben Linders 翻訳者大田緑 _ (株)チェンジビジョン
投稿日 2017年3月26日午後9時13分
人為的ミスにより AWS S3 が US-EAST-1 で停止

手違いによって本来より多くの S3 サーバが停止した。これには2つの重要なサブシステムも含まれていた。S3は不具合を起こし、S3 サービスやこれに依存する他のサービスにも影響は及んだ。復旧にはおよそ4時間が掛かった。

Abel Avram 翻訳者西村美沙
投稿日 2017年3月6日午後10時46分