InfoQ ホームページ incident-reponse に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

DevOps

SREと生成AIを利用したeBayのダウンタイム削減方法：KubeCon EUでのアーキテクトによる洞察

KubeCon EUの基調講演で、eBay社のプリンシパルMTSアーキテクトであるVijay Samuel氏は、機械学習やLLMのビルディングブロックを組み込み、自社SREチームのインシデント対応強化を行った際の実体験を披露した。同氏は今回の体験を通し、LLMは万能ではないものの、複数機能を組み合わせることで複雑なシナリオに取り組むエンジニアに役立つことが分かったと語っている。

Olimpiu Pop 翻訳者 kazuki
投稿日 2025年5月1日午前5時30分
DevOps

Cloudflare、11月に大規模インシデント発生、ログ消失に至る

Cloudflareは最近、11月14日にCloudflare Logsに影響を与えるインシデントが発生し、3.5時間の間にログの55％が失われたことを確認した。

Renato Losio 翻訳者 Hiroshi.Kuroki
投稿日 2025年1月9日午前10時30分
DevOps

Grafanaのインシデント管理機能の向上でエンジニアの課題を解決

オブザーバビリティソリューションの大手プロバイダであるGrafana Labsは、インシデント対応・管理（IRM）プラットフォームの大幅な機能強化を発表した。これらの変更により、チームはインシデント管理プロセスを合理化して対応時間を短縮することで、インシデントをより効果的に管理・対応できるようになった。

Matt Saunders 翻訳者 Hiroshi.Kuroki
投稿日 2025年1月8日午前2時30分
カルチャー＆手法

インシデント解決にレジリエンスはどのように役立つのか？

社会技術システムを全体的に見ることによって、インシデントのライフサイクルを通じてレジリエンスを適用することは、インシデントが学習の機会となる。レジリエンスは、人々がインシデントの解決にうまく対応できるようになり、コラボレーションを改善するのに役立つ。また、組織が計画を実現するための時間を確保できる。

Ben Linders 翻訳者 Ayako Ueno
投稿日 2023年6月26日午前1時48分
DevOps

Lightstep、自社の可観測性プラットフォームにインシデント対応機能を追加

Lightstepは、同社の可観測性プラットフォームにインシデント対応管理機能を追加すると発表した。このLightstep Incident Responseの供与が開始されたことにより、同社のプラットフォームでは、一般的なコラボレーションツール、ローテーションスケジューリング、エスカレーションポリシ、API、CLIのインテグレーションが提供されるようになる。

Matt Campbell 翻訳者 h_yoshida _
投稿日 2022年4月6日午後7時56分
DevOps

Grafana Cloudにインシデントとオンコールの管理ソリューションが追加

Grafanaは、Grafana Cloud製品にインシデント管理とオンコールサポートを追加することを発表した。現在プレビュー中のGrafana Incidentでは、会議スペースが生成され、Slackと統合され、Grafanaダッシュボードから取得した情報を使ってインシデントのタイムラインが構築される。Grafana OnCallでは、接続された監視システムからのオンコールローテーションスケジューリングと通知が提供される。

Matt Campbell 翻訳者編集部T _
投稿日 2022年3月9日午後8時27分
Cloud

GoogleCloudはSiemplifyの買収を通じてセキュリティオーケストレーションを採用

Googleはセキュリティオーケストレーション、自動化、応答（SOAR）プロバイダーのSiemplifyの買収を発表した。SOAR機能を独自のGoogle Chronicleセキュリティソリューションに統合することを目的としたものだ。

Sergio De Simone 翻訳者編集部T _
投稿日 2022年1月28日午前4時10分
Cloud

誤ったIAMポリシーによるS3データへのAWSアクセスに関する疑問

AWSサポートが使うポリシーの予期しない変更により、顧客のS3データへのアクセスに関する懸念が生じた。当クラウドプロバイダは変更を元に戻した。アクセス許可は使用されなかったし、できなかったと述べ、セキュリティ速報を公開した。セキュリティ専門家は、将来の同じような問題を検出して防止するための手順を提案している。

Renato Losio 翻訳者編集部T _
投稿日 2022年1月28日午前4時8分
Cloud

AWS US-EAST-1の停止: ポストモーテムと学んだ教訓

12月7日、AWS は、最も人気のあるリージョンのバージニア北部で多くのサービスに影響を与える1時間の停止を経験した。同クラウドプロバイダは、AWS の冗長性とマルチリージョンアプローチについて、コミュニティのスレッドを開始してインシデントの分析を公開した。

Renato Losio 翻訳者 Shoji Shigeki
投稿日 2022年1月17日午後6時58分
カルチャー＆手法

レジリエントな企業がより多くのインシデントを求める理由

John Egan氏によると、インシデント管理プロセスは単なるインシデントへの対応だけではない。根本原因を報告して、社内プロセスと業界全体のプラクティスを更新するサイクルなのだ。インシデント報告のバリアを低くし、非難を伴わない事後分析を使った効果的なインシデントレビュー会議を実施して、分析結果をすべての人に公開すべきだ、というのが氏のアドバイスである。

Ben Linders 翻訳者 h_yoshida _
投稿日 2021年7月13日午後9時23分
Cloud

Amazonが自動対応プランのインシデントマネージャーを発表

AWSは最近、AWS Systems Managerの新機能であるIncident Managerを発表した。これは、顧客がアプリケーションとインフラストラクチャのインシデントに対する準備、対応をサポートするものである。

Renato Losio 翻訳者編集部T _
投稿日 2021年6月29日午後8時46分
DevOps

AWSがHealth Awareをリリースし、アカウントに対する自動ヘルスアラートを提供

AWSは最近、AWS Health Aware（AHA）のリリースを発表した。これは、インシデント管理および通信フレームワークである。AHAは、AWS Health Alertsをさまざまなエンドポイントに送信する自動通知ツールである。AHAはAWS組織とインテグレーションして、その組織内のすべてのアカウント横断で集約されたアラートを提供できる。

Matt Campbell 翻訳者編集部T _
投稿日 2021年5月18日午前3時45分
DevOps

PagerDuty、AWS DevOps GuruとMicrosoft Teamsとのインテグレーションが可能に

pagerDutyは、同社のインシデント応答プラットフォーム向けに、多数のアップデートと拡張をリリースした。これにはAmazon DevOps Guru、AWS Control Tower、Microsoft Teamsとの新たなインテグレーションが含まれている。その他にも、障害のコード変更へのマッピング、自動トリガ、コンテントに基づいたアラートのグループ化などが改善された。

Matt Campbell 翻訳者 h_yoshida _
投稿日 2021年5月16日午後8時45分
DevOps

役割の割り当てとGameDayによるインシデント管理の改善

Bitfield Consultingの主任コンサルタントであるJohn Arundel氏は、インシデントをスムーズかつ迅速に処理する方法についての考えを共有した。彼は、インシデントに対応する各チームメンバーに特定の役割を割り当てることを提案している。レッドチームとブルーチームの演習を活用して、チームが正確かつ迅速に対応できるようにすることもできる。

Matt Campbell 翻訳者 Shoji Shigeki
投稿日 2020年12月25日午前2時8分
DevOps

Netflix Presents Telltale、アプリケーションヘルスモニタリングツール

Netflixエンジニアリングチームは先頃、さまざまなデータソースを利用してアプリケーションの一般的な状態を学習する監視およびアラートツールであるTelltaleについてブログを投稿した。Telltaleは、アプリケーションからの関連データのみを表示する。近くのデプロイメントやリージョンのトラフィック退避などの重要なイベントに関する情報もある。

Aditya Kulkarni 翻訳者 Shoji Shigeki
投稿日 2020年10月23日午前2時38分