米国のサイバーセキュリティ・テクノロジー企業であるCrowdStrike社は最近、製品アップデートをリリースし、企業、個人ユーザー、ソフトウェア企業に影響を与え、世界中でWindowsが動作する推定850万台のコンピュータをレンガ化した。CrowdStrike社は、クラウド・ワークロード・プロテクション、エンドポイント・セキュリティ、脅威インテリジェンス、サイバー攻撃対応サービスを提供し、重要なリスク領域を保護し、ハッカーによる侵入を防いでいる。
問題のアップデートは、CrowdStrikeのファルコンエージェントのコアコンポーネントに影響を与えた。初期の調査によると、この問題は、更新プログラムとWindowsの特定の低レベルのシステムファイルとの間の競合に起因していた。MacやLinuxなどの他のオペレーションシステムには影響はなかった。
具体的には、このアップデートは、ハードウェアとシステムリソースの管理を担当するオペレーティングシステムの中核部分であるWindows kernelとの非互換性を引き起こした。この非互換性によってブートシーケンスに不具合が生じ、一般的に「レンガ化した」マシンと呼ばれる、デバイスが起動しない、機能しない状態に陥った。
多くのRedditスレッドのひとつで、ある回答者はこう説明している。
Crowdstrike社は「スキップできない」アップデートをすべての電話ホームエンドポイントにプッシュした。N-1またはN-2コンフィギュレーション(Nはソフトウェアの最新バージョンを表し、-#は何バージョン遅れているかを表す)を設定した人は、そのオプションを無視された。
これはある意味、この製品にとっては論理的なことだ。0-dayの修正はすぐに広める必要がある。0-dayでN-1であることは賢明ではない。
誰もが、CrowdStrike社は世界中に公開する前に、ステージングにおいて十分な注意を払っていると信じていました。明らかに、CrowdStrike社の誰かが一歩を踏み外しました。どのような承認・実施システムを使ったにせよ、失敗しました。CrowdStrikeプログラムを使っている人は、アップデートを受けて死亡しました。「サービスとしての死のブルー・スクリーン(BSOD)」です。
さらに、Hacker Newsスレッドの回答者はこう書いている。
これはグローバル規模のマルチレイヤー障害です。マイクロソフト社がサードパーティのソフトウェアによるカーネル改造を許可したこと、CrowdStrike社がこれをテストしなかったこと、DevSecOpsが段階的/カナリアなデプロイをしなかったこと、世界の半分が同じOSを動かしていること、インターネットに接続すべきでないものがデフォルトで接続されていることです。マイクロソフト社とCrowdStrike社は、すべての冗長性とフェイルオーバーの設計を徹底的に検証し、そのような設計が行われていない場所をはっきりと示しました。
CrowdStrike社は、アップデートの配布を中止し、問題を解決するためのパッチに取り組むことで迅速に対応した。同社は、影響を受けたユーザーに対して、セーフモードでの起動や問題のあるアップデートのアンインストールなど、機能を回復するための詳細な手順を提供した。CrowdStrikeのBSOD問題に関するRedditのスレッドでは、ある回答者がこう書いている。
BSODでハードウェアがブートループする原因になっているのであれば、修正パッチやスクリプトを展開できないでしょう。なぜなら、もしハードウェアがBSODでブートループする原因になっているのであれば、修正パッチやスクリプトを配布できないからです!
さらにマイクロソフト社は、IT管理者の修復プロセスを支援するリカバリーツールをリリースした。
Novac Technology Solutionsのクラウド・アーキテクトであるShyam Sundar氏は、CrowdStrike社によるBSOD災害の詳細について、Mediumのブログ投稿で次のように結論付けている。
これは、世界中の多くの企業にとって甚大な災害となりました。このようなインシデントの再発を防ぐために、企業がどのような対策をとるかはまだわかりません。A/Bテストや時間をずらしての展開があれば、このような大規模な停電は防げたでしょう。
最後に、CrowdStrikeの創設者兼CEOであるGeorge Kurtz氏は、このような事態が発生した経緯と再発防止策について、完全な透明性を提供すると述べている。