InfoQ ホームページ incident-reponse に関するすべてのコンテンツ
-
GitHubが2月中に複数回のサービスダウン - その理由は
GitHubはこの2月、同サービスに8時間以上の影響を与えた、複数回に及ぶサービス中断の原因に関する内部調査の完了を発表した。根本的な原因は、予期していなかったデータベースの負荷変動と、データベースの設定上の問題にあった。
-
Netflixが危機管理オーケストレーションツールをオープンソースとして公開
Netflixは、同社の危機管理オーケストレーションフレームワークであるDispatchのリリースを発表した。Dispatchは、JiraやPagerDuty、Slackといった既存ツールを統合し、危機管理プロセスを合理化したもので、他ツールのサポートを追加するための統合エンドポイントも備える。
-
どうやってうまくいっているのか?Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より
QCon New Yorkで、Ryan Kitchens氏が、"How Did Things Go Right? Learning More from Incidents"と題して講演した。主なポイントは次のとおりだ。リカバリは予防に優る; インシデントは"最悪の状況"が起きた時に発生するのであるから、根本原因(root cause)というものは存在しない; ユーザの幸福が何より重要である; システムがうまくいっている理由を知ることには大きな価値がある。
-
SplunkがSplunk Connected ExperiencesとSplunk Business Flowをリリース
データ分析企業のSplunkは先頃、拡張現実(AR)、Apple TVなどのモバイルデバイス、モバイルアプリケーションを通じて概念を提供する、Splunk Connected Experiencesをリリースした。同時にリリースしたSplunk Business Flowでは、ビジネスオペレーションの専門家が顧客に対して、ビジネスの進展やプロセス全体に対する洞察を提供することが可能になる。
-
New York Timesエンジニアリングチームによるスケーリング,インシデント管理,コラボレーション
The New York Timesのエンジニアリングチームが、2018年11月の米国中期選挙でのトラフィック増加を背景とした、 スケーリングとインシデント管理への取り組みについての記事を書いている。
-
OpsRampがサービス中心性の向上,AIOps,クラウド監視を発表
ハイブリッド企業向けのサービス中心型AIOpsソフトウェア・アズ・ア・サービス(SaaS)プラットフォームであるOpsRampが,新たなトポロジマップ,ITオペレーション用の拡張AI(AIOps)機能,クラウドネイティブなワークロード用の新しい監視機能を発表した。
-
Atlassian、インシデント管理ソリューションを発表
9月4日、AtlassianはJira Opsと呼ばれる新プロダクトのローンチと、彼らがOpsGenieを買収することを発表した。Jira Opsを使うことで、組織はインシデントを解決し、そこから学ぶためのポストモーテムを実施できる。OpsGenieはJira Opsに迅速かつ信頼できるアラートを追加する。
-
インシデントと機能停止に対応する
Server DensityでCEOを務めるDavid Mytton氏が,DevOpsDays Amsterdam 2015の観衆に対して,同社がインシデントや機能停止を扱う方法を公開した。プロセスは,頻繁な公式アップデート,対応アクティビティのログ取得の徹底,チーム活動と効果的エスカレーションという,一連の重要原則に基づいたものだ。同社はインスピレーションの多くを,その安全手順で名高い航空業界から得ている。