企業は、より多くを学ぶために、より多くのインシデントを望んでいる!John Egan氏によると、インシデント管理プロセスは単なるインシデントへの対応だけではない。根本原因を報告して、社内プロセスと業界全体のプラクティスを更新するサイクルなのだ。インシデント報告のバリアを低くし、非難を伴わない事後分析を使った効果的なインシデントレビュー会議を実施して、分析結果をすべての人に公開すべきだ、というのが氏のアドバイスである。
workplace by Facebookの共同創業者兼プロダクトリーダであったEgan氏は、先頃のQCon Plus May 2021で、ハイテク企業のインシデント管理方法について講演した。
ハイテク企業の多くはもっと多くのインシデントを望んでいる、インシデントを減らそうとするのは逆効果だ、とEgan氏は言う。
多くの企業が、インシデントの数を見て"もっと少なくするにはどうすればよいのだろう?"と思うような、古い考え方に今もって捉われています。そしてそれが、 全社的なインシデントの過小報告という状況を助長するような、あらゆるタイプのアンチパターンの温床となっているのです。インシデントの数が少なければ、インシデントから学ぶプロセスが実行されることもなくなり、数え切れないほどの学習機会を失う結果になります。
インシデントに対する回復力を備えた大手ハイテク企業は、航空産業、宇宙産業、危機対応産業といった、他分野の障害克服プラクティスを取り入れることでその力を養ってきたのだ、とEgan氏は言う。それらの企業は、より多くのインシデントをより早く提出することが望ましいとして、それを奨励することにより、インシデント管理プロセスのバリアを可能な限り下げるための努力を続けてきた。
事後分析という面においては、プロセスの各ステップにおけるバリアを下げるために、最大限の努力をするべきだ — 事後分析を記述し、効果的に配布して、その結果を他の人々と協力して話し合うことが必要だ、とEgan氏は説明する。
事後分析報告書を記述する上でのバリアを下げるには、インシデントのタイプ毎に一連のテンプレートを用意しておいて、可能な部分について作業を簡略化しておくとよいでしょう — 小さなインシデントのために10ページの報告書を書く必要はないでしょう。また、テンプレートがひとつしかなければ、それを読んだ人は何の感想も持たずに読み過ごしてしまうかも知れません。それならば短い文であっても、自分がインシデントから学んだことを記した方がずっと有益です。
インシデントから学んだことを企業が共有し、議論できるようになるために、Egan氏は2つのステップを提唱する。
1)事後分析報告書をパスワードで保護されたフォルダに置いたり、一部のメーリングリストで配布するのではなく、作成時から社内のすべての人たちがアクセスできるようにしておく。
2)インシデントレビューミーティングを早い時期に設定して、報告書が非難を受けることなく迅速にレビューできるようにする。
学びには2つの種類がある、予期された学びと、偶然の学びだ、とEgan氏は言う。予期された学びは、フォローアップタスクを通じて獲得できるものであり、多くの場合は事後分析プロセスに参加することによって、インシデントに向き合う機会を得た対応者たちから得るものである。一方の偶然の学びとは、報告書の作成者が期待や予測していなかった、社内の他の人たちからもたらされる、予想外の学びのことである。
Egan氏によれば、偶然の学びは企業内に留まらず、ソフトウェア産業全体にとって有益なものになる可能性がある。
大企業のある部署に所属するエンジニアが、無関係な部署の誰かによって書かれた、その時点では直接的に関連のないインシデントに関する資料を読むことによって、自身のプロセスを変更するかも知れません。報告書を配布するメリットは、ここにあるのです。究極的な形として、業界全体にこのトレンドが広がることで、障害分析資料が一般公開されて、ひとつの企業内には留まらない、業界全体を対象とする最大限のダウンストリーム学習効果が実現すれば、と願っています。
John Egan氏に、航空業界から学んだこと、インシデント報告の改善、事後分析の簡略化などについて話を聞いた。
InfoQ: 講演では、航空業界におけるインシデント対応を話題にしていましたが、具体的にはどのようなことが参考になったのでしょうか?
John Egan: 航空産業は1950年代から今に至るまで、まさにレジリエンスエンジニアリングの試練の真っ只中にあると言えます — 数字を曖昧にすることが許されず、障害が人命に関わることも多いこの産業は、ベストプラクティスの構築に古くから取り組んできました。この結果として、航空産業では、インシデント管理の長期的影響に対して、極めて大きな重点を置くことが可能になったのです。その結果は、圧倒的にポジティブなものでした。
しかしながらその後、1990年代になると、インシデント対応と改善に関する学習サイクルやプロセスの確立という、素晴らしい実績を上げているにも関わらず、そのプロセスの効果を最大限まで引き上げるのに十分なトリガが存在していない、という事実を認識するに至ったのです。さまざまな理由から、パイロットや整備士たちは、インシデントの報告が回避できるような場合でも、それを避けるようなことはしません。そのことから、一連の事故を契機とした取り組みが生まれ、主要な計測指標として提出したインシデントの数を増やすことが重視されるようになりました。これが最終的に、この産業を世界で最も安全なもののひとつにするという、影響を及ぼしたのです。
回復力を備えた企業の構築というこの歴史のいずれからも、私たちは学ぶべきものがあると思います。それらは影響力に富んだプロセスの必要性であり、その利用を最大限にする必要性です。
InfoQ: インシデント報告のバリアを下げるためにできることは何でしょう?
Egan: バリアを下げるというのは、アクセスの容易なツーリングと文化的変革に他なりません。自社のインシデント管理ツールを、危機的な状況においてのみ使用するものではなく、日々使用するツールと同じような感覚で、会社全体が使用できるようにしておく必要があります。
私自身の経験では、ツールの利用を標準化して、誰でも気軽に使えるようにしておくのが、企業としては最もよい方法です。ツールの用意ができたならば、次に重要なのは、プロジェクトの進捗や完了を称賛するのと同じように、インシデントを提出したり、インシデントに対応したり、インシデントで学んだことを展開する行為を称賛することです。
航空産業から学んだもうひとつのことは、インシデント管理プロセスは企業をよくするために存在するのであって、懲罰的措置や罰則のための証拠集めではないということを、社内の全員が信じることが重要である、という点です。そのためには、経営層に至るまでのマネージャが、インシデント報告によって収集された情報が生産的かつ意図的に使用されるものであることを示すために、インシデントの持つプラスの影響について説明すると同時に、インシデントが社員のキャリアに対して否定的な意味を持つものではないということが、特定のインシデントを参照して説明可能になるような、意図的かつ目に見える措置を講じる必要があります。
InfoQ: 事後検証の実施方法を簡略する上で、何かアドバイスはありますか?
Egan: 始めたばかりの段階では、可能な限りバーを低くして、事後分析の作成を促進するようにしてください。その一方で、分析報告の分配についてはできる限り高く設定しましょう。読まれないであろうものを書くのに時間を費やすようなことは、誰もしたくないはずですから。
不完全な分析報告書からイテレーションを始める方が、ゼロから始めるよりも簡単です。一番手っ取り早い方法は、Kintabaのようなツールを全社的に採用することです。そうすれば、いくつものツールを自力でつなぎ合わせて、インシデントプロセスを手作業で実行する手間を省くことができます。