InfoQ ホームページ incident-reponse に関するすべてのコンテンツ
-
インシデント解決にレジリエンスはどのように役立つのか?
社会技術システムを全体的に見ることによって、インシデントのライフサイクルを通じてレジリエンスを適用することは、インシデントが学習の機会となる。レジリエンスは、人々がインシデントの解決にうまく対応できるようになり、コラボレーションを改善するのに役立つ。また、組織が計画を実現するための時間を確保できる。
-
Lightstep、自社の可観測性プラットフォームにインシデント対応機能を追加
Lightstepは、同社の可観測性プラットフォームにインシデント対応管理機能を追加すると発表した。このLightstep Incident Responseの供与が開始されたことにより、同社のプラットフォームでは、一般的なコラボレーションツール、ローテーションスケジューリング、エスカレーションポリシ、API、CLIのインテグレーションが提供されるようになる。
-
Grafana Cloudにインシデントとオンコールの管理ソリューションが追加
Grafanaは、Grafana Cloud製品にインシデント管理とオンコールサポートを追加することを発表した。現在プレビュー中のGrafana Incidentでは、会議スペースが生成され、Slackと統合され、Grafanaダッシュボードから取得した情報を使ってインシデントのタイムラインが構築される。Grafana OnCallでは、接続された監視システムからのオンコールローテーションスケジューリングと通知が提供される。
-
GoogleCloudはSiemplifyの買収を通じてセキュリティオーケストレーションを採用
Googleはセキュリティオーケストレーション、自動化、応答(SOAR)プロバイダーのSiemplifyの買収を発表した。SOAR機能を独自のGoogle Chronicleセキュリティソリューションに統合することを目的としたものだ。
-
誤ったIAMポリシーによるS3データへのAWSアクセスに関する疑問
AWSサポートが使うポリシーの予期しない変更により、顧客のS3データへのアクセスに関する懸念が生じた。当クラウドプロバイダは変更を元に戻した。アクセス許可は使用されなかったし、できなかったと述べ、セキュリティ速報を公開した。セキュリティ専門家は、将来の同じような問題を検出して防止するための手順を提案している。
-
AWS US-EAST-1の停止: ポストモーテムと学んだ教訓
12月7日、AWS は、最も人気のあるリージョンのバージニア北部で多くのサービスに影響を与える1時間の停止を経験した。同クラウドプロバイダは、AWS の冗長性とマルチリージョンアプローチについて、コミュニティのスレッドを開始してインシデントの分析を公開した。
-
レジリエントな企業がより多くのインシデントを求める理由
John Egan氏によると、インシデント管理プロセスは単なるインシデントへの対応だけではない。根本原因を報告して、社内プロセスと業界全体のプラクティスを更新するサイクルなのだ。インシデント報告のバリアを低くし、非難を伴わない事後分析を使った効果的なインシデントレビュー会議を実施して、分析結果をすべての人に公開すべきだ、というのが氏のアドバイスである。
-
Amazonが自動対応プランのインシデントマネージャーを発表
AWSは最近、AWS Systems Managerの新機能であるIncident Managerを発表した。これは、顧客がアプリケーションとインフラストラクチャのインシデントに対する準備、対応をサポートするものである。
-
AWSがHealth Awareをリリースし、アカウントに対する自動ヘルスアラートを提供
AWSは最近、AWS Health Aware(AHA)のリリースを発表した。これは、インシデント管理および通信フレームワークである。AHAは、AWS Health Alertsをさまざまなエンドポイントに送信する自動通知ツールである。AHAはAWS組織とインテグレーションして、その組織内のすべてのアカウント横断で集約されたアラートを提供できる。
-
PagerDuty、AWS DevOps GuruとMicrosoft Teamsとのインテグレーションが可能に
pagerDutyは、同社のインシデント応答プラットフォーム向けに、多数のアップデートと拡張をリリースした。これにはAmazon DevOps Guru、AWS Control Tower、Microsoft Teamsとの新たなインテグレーションが含まれている。その他にも、障害のコード変更へのマッピング、自動トリガ、コンテントに基づいたアラートのグループ化などが改善された。
-
役割の割り当てとGameDayによるインシデント管理の改善
Bitfield Consultingの主任コンサルタントであるJohn Arundel氏は、インシデントをスムーズかつ迅速に処理する方法についての考えを共有した。彼は、インシデントに対応する各チームメンバーに特定の役割を割り当てることを提案している。レッドチームとブルーチームの演習を活用して、チームが正確かつ迅速に対応できるようにすることもできる。
-
Netflix Presents Telltale、アプリケーションヘルスモニタリングツール
Netflixエンジニアリングチームは先頃、さまざまなデータソースを利用してアプリケーションの一般的な状態を学習する監視およびアラートツールであるTelltaleについてブログを投稿した。Telltaleは、アプリケーションからの関連データのみを表示する。近くのデプロイメントやリージョンのトラフィック退避などの重要なイベントに関する情報もある。
-
GitHub Availability Report - インシデント調査月次報告
重大なインシデントの事後公開という段階を越えて、GitHubは今回、Availability Reportを導入した。インシデントについて説明するだけではなく、GitHubのエンジニアリングシステムとプラクティスを前進させるために行った活動にも注目する。
-
Cloudflare、27分間のサービスについて説明
Cloudflareで先頃、部分的なサービス停止が発生し、27分間にわたって続いた。これにより同社ネットワークのトラフィックが50パーセント低下している。
-
リモートワーク時代のインシデント管理
テクノロジエンスージアストで、OpsRampのグループプロダクトマネージャを務めるMichael Fisher氏は先日、IT運用担当者とDevOpsチームによる、インシデント管理プロセスに対する問題優先型(problem-first)アプローチについて、ブログ記事を公開した。同じ方向で、Laura Maguire博士とNora Jones氏も、COVID-19への世界的な対処として、同様の課題について書いている。