BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Cloudflare、27分間のサービスについて説明

Cloudflare、27分間のサービスについて説明

原文(投稿日:2020/08/29)へのリンク

Webサイトにパフォーマンスとセキュリティを提供するCloudflareが先日、インターネットプロパティとサービスの部分的な停止という事態に見舞われた。サービス停止は27分間にわたった。The Cloudflare Backboneネットワークのエラーが原因となったこのサービス停止により、ネットワーク全体のトラフィックが50パーセント低下した。同社CTOのJohn Graham-Cumming氏は、自身のブログで、今回のサービス停止は何らかの攻撃や侵入によるものではない、と明言した。

Graham-Cumming氏はこの問題のタイムラインについて、ネットワークの輻輳を緩和するために、まったく別の問題を解決しようとしていたネットワークエンジニアリングチームが、ルータの設定を変更したことを説明した。問題は、米国のニューアークからシカゴへの、バックボーンのセグメントに関わるものだった。この時の設定上のエラーにより、バックボーン全体のトラフィックがすべてアトランタに送られ、ルータに非常に大きなロードが発生した。

その結果、アトランタに接続されているCloudflareネットワークローケーションが使用不能になったのだ。影響を受けたロケーションはサンノゼ、ダラス、シアトル、ロサンゼルス、シカゴ、ワシントン、ワシントンDC、リッチモンド、ニューアーク、アトランタ、ロンドン、アムステルダム、フランクフルト、パリ、ストックホルム、モスクワ、サンクトペテルブルク、サンパウロ、クリチバ、ポルトアレグレの20カ所に及ぶ。

League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico、ShopifyといったWebサイトが影響を受け、Twitterのユーザがサービスのダウンを報告し始めた。

Graham-Cumming氏は謝罪し、このようなサービス停止が再度発生しないように、世界的なバックボーンの構成に変更を加えることを表明した。さらなる詳細として、同社CEOのMatthew Prince氏はTwitterで、"根本的な原因は、プライベートバックボーンのルータを設定した際のタイプミスでした。このようなミスに対するセーフガードを適用したことにより、今後同じ問題が発生することはありません。"と述べている。

インターネット上のディスカッションフォーラムには、支持と疑問視、両方の声が入り混じっている。Redditではrotarychainsawというユーザが、タイプミスのようなミスは簡単に起こるものであって、"これまでは本当になかったのだろうか?" と指摘している。同じスレッドの中には、レビュープロセスを疑問視するコメントがいくつかあり、例えばユーザhennirlは、"この変更がどのようなレビューを通じて行われたのか、興味があります。構成の変更差分を取った上で、少なくとも2人は目を通したはずですよね?[...]"と述べている。

今回のサービス停止は、2019年7月2日に発生した同様の障害から1年後に発生している。前回の障害では、ネットワーク内のCPU利用で発生した大規模なスパイクが原因で、Cloudflareサイトが502エラーを送出する事態が発生した。Jerome Fleury氏は、("厳しい")質問をするようにユーザに求める一方で、今回のサービス停止から同社が"たくさんの教訓を得た"ことをツイートしている。

関心のある読者は、事後のトピックや"根本原因"の運用面での問題についてさらに調査してみるとよいだろう。Ryan Kitchensによる関連InfoQポッドキャストや""Learning from Incidents"ブログを通じることで、調査上の障害を克服することが可能になる。

この記事に星をつける

おすすめ度
スタイル

BT