Windows Azure がうるう年処理のバグによってダウン

原文(投稿日：2012/03/02)へのリンク

Microsoft Windows Azure クラウドの１部のサブリージョンが，うるう年処理のバグの影響で12時間から24時間にわたって，サービスのいくつかを利用できない状態になった。

Windows Azure Service Dashboard によれば，いくつかのサブリージョンあるいは世界的な範囲において，2月29日(UTC)の早い時間から3月1日朝まで 24 時間以上の間，多くのサービスで中断が発生した。影響を受けたサービスは以下のものだ。

Windows Azure Compute Service では，North Central US サブリージョンにおける 6.7% から South Central US では 28%，North Europe の 37% に至るまで，６つあるサブリージョン中の４つでホストされているサービスが影響を受けた。さらに Access Control 2.0 や Marketplace，サービスバス，アクセスコントロール，キャッシングポータルなどの Azure サービスにも影響が発生した。
Service Bas がひとつのリージョン (South Central US) において，24時間以上にわたってダウンした。
South Central US にある Marketplace が， OAuth アクセスを必要とするサービスを中心に，12時間以上にわたって影響を受けた。
2012/2/29 が原因で発生した証明書の問題によって Service Management サービスが，いくつかのケースで約12時間，リージョンによっては24時間以上，世界的な規模で影響を受けた。

ストレージ，CDN，その他のサービスには影響がなかったようだ。これとは別の問題が原因で，Platform Management Portal も3月1日に約3時間にわたり，世界的な障害が発生した。これは "バックエンド設定に関する定義の誤り" によるものだという。

サーバおよびクラウド部門担当コーポレート・バイスプレジデントの Bill Laing 氏が，今回の停止とその原因に関して， Azure ユーザを対象とした簡単な報告を行っている。それによると Azure チームが問題を認識したのは PST(西海岸時刻)の2月28日午後5:45，UTC(世界標準時)では2月29日の午前1:45のことだ。犯人は特別な日である2月29日を起因とする，小さなソフトウェアバグだった。

問題はすぐさまトリアージされ，ソフトウェアバグによって引き起こされたものと判明しました。最終的な根本原因の分析の結果，この問題がうるう年に関する時間計算の誤りであることを確認しました。

以前にも Symantec が，同社の Software Delivery 6.1 に影響を与えたうるう年のバグについて報告したことがある。Inedo のマネージングパートナである Alex Papadimoulis 氏は，自身のユーザの１部がそれによって影響を受けたと報告している。さらにニュージーランドでも，多数の POS デバイスが支障を来たした事例がある。

このようなバグは小さな企業ならばまだしも，Microsoft ほどの企業には恥辱的なものである。自社のクラウドプラットフォームでホストするユーザのサービスに影響を与えたのだから，なおさらだ。小さな原因によって巨大なコンピューティングプラットフォームがダウンすることは興味深い。１年前には Amazon で，US East Region のアベイラビリティゾーンのひとつを，誤ってトラフィックを処理できない低能力のルータに接続したことがいくつかの EBS に影響して，最終的にゾーン全体がダウンした，という例もある。このようなブラックアウトの発生について，我々はさらに詳細な調査を行いたいと考えている。結局のところ，人は誤りを犯すものなのだ。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックはクラウドコンピューティングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

OpenAI、QCon AI NYCで企業向けのファインチューニングを発表

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

NVIDIA社のDynamoが、マルチノードLLM推論の課題に対応

KubriX社が「アウト・オブ・ザ・ボックス」をコンセプトとした内部開発者プラットフォームを発表

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco