オブザーバビリティソリューションの大手プロバイダであるGrafana Labsは、インシデント対応・管理(IRM)プラットフォームの大幅な機能強化を発表した。これらの変更により、チームはインシデント管理プロセスを合理化して対応時間を短縮することで、インシデントをより効果的に管理・対応できるようになった。
Sift Investigationsは、Grafana Incidentの主要な新機能の1つである。このツールは、インシデントに関わる手間を省くことで、エンジニアが問題の解決に注力できるよう手助けしてくれる。Siftは、チームがデータを迅速にフィルタリングし、リアルタイムに問題を特定および優先順位付けすることを支援する。エラーパターンやKubernetesコンテナの障害を迅速に分離することで、Siftはチームが迅速に修復作業を開始することを可能にするため、サービス復旧までの時間を最小化できる。Grafana 機械学習が Sift を強化するのである。
Siftでの調査に加え、インシデントの情報共有を効率化するために、Grafana Labsは、Grafana IncidentをGrafana OnCallに統合した。この統合によって、空き状況や希望する連絡方法に基づいて、関連するチームメンバーに自動的に通知が行くことを保証する。Grafana Labsは、適切な担当者へすぐに問題を知らせることで、重要な問題の解決プロセスを迅速化することを目指している。
さらなる改善点として、OpenAIを使用した簡潔なインシデントサマリーの自動生成が可能になった点や、「Slack Attachment Uploads」により、エンジニアが絵文字リアクションを使用して調査関連ファイルをSlackへ素早く送信可能になった点が挙げられる。また、Grafana OnCall内、または任意のGrafanaパネルから、インシデントを直接報告することが可能になった。
この発表では、現在開発中のいくつかのインシデント管理ロードマップ項目について、さらにいくつかの詳細が提供されている。これらには、機密データを安全に取り扱うためのプライベートインシデントの導入、特定の運用手順に合わせるためのカスタマイズ可能なインシデントフェーズ、ユーザーエクスペリエンスを向上させるための単一のSlackアプリへのGrafana OnCallとGrafana Incidentの統合が含まれる。
その他の今後の機能には、アラートがインシデントにエスカレーションされる際に、すべての関連データを引き継ぐための「フローラベル」が含まれる。また、オンコール体制でインシデント対応する際に自動でインシデントを報告する機能や、Grafana IRMモバイルアプリにおけるインシデント管理機能の拡張も進められている。これにより、対応者はモバイル端末から直接インシデントを管理できるようになる。
Grafana Labsは、エンジニアたちがこれらの新機能を検討し、インシデント管理戦略に組み込んでくれるよう推進しているところだ。