BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Amazon S3の機能停止:SLAが信頼をもたらすか?

Amazon S3の機能停止:SLAが信頼をもたらすか?

Amazon Web ServicesによるSimple Storage Service (S3)(source)は、クラウドベースのストレージプラットフォームで、Twitter(サイト・英語)、G.ho.st(サイト・英語)および37signalsのBasecamp(source)などを含む多く の有名Webサイトで使用されているが、先日大規模な機能停止が発生した。それはS3の3つの地理的サイトの1つで起こり、2時間以上に渡り停止した。

AWSのデベロッパによる委員会(source)において、その発生がAWSが信頼できるものであったかどうかに一石を投じた。
S3サービスはすばらしいが、単にこういうことが起こっただけでそうではないと思われてしまう。長い期間低迷が続いているさなかに、特にこれは大問題である。
S3の長期間の信頼性についての記録を迅速に指摘したユーザもいた。
およそ1年前にサービスに参加してから、初めて経験した機能の停止だった。
InfoQは長期にわたりS3を使用しているユーザにインタビューをし、そこにはS3の信頼性に関した一貫した話があった。過去に2分未満の一時的な中断が1、2度(ブログ・英語)あっただけである。

Amazonは、「月間99.9%の実行可能時間」というService Level AgreementをS3(source)で適用している。Amazonは、10月にその適用を開始した。11のAmazonのWebサービス(source)のうち、Amazonが現在SLAを提供している のは唯一S3だけである。クラウドベースのストレージソリューションではAmazonのSLAはどんな意味があるのか?

おそらくたいして意味はない。S3 SLAは、5分のインターバルが数回あり1ケ月平均99.9%の可用性を約束している。最悪の場合、SLAは1ケ月で40分間使用不可能になる。ほとんど の人にとって30分間使用できなくてもたいして問題にならないけれども、これは金融アプリケーションや医療機器で期待される信頼性とは違う重要性の注文で ある。

SLAでは不十分である場合、収益や評判が危険にさらされていることを考慮すれば、多くのS3ユーザには不適切かもしれないサービスの信頼を提供してい る。99.9%のサービスレベルの協定が満たされない場合、Amazonは使用料の10%を翌月口座へ入金する。可用性が99.0%を下回った場合、 Amazonは使用料の25% を口座へ入金する。結果1ケ月7時間可用性が実現できなかった場合である。このことを正しい角度で見直すために、500GBのデータを格納するユーザを検 討する。500GBのデータをS3へ移行し、1ケ月で10回完全に目的を果たすのにかかる費用は、およそ$1000である。機能停止が5時間あった場合、 ユーザへの返金は$100であり、ユーザが先週の機能停止を期待してしまうのに十分な金額であろう。このシナリオで、7時間の停止から完全な機能停止にか かるひと月の金額は$250である。

クラウドコンピューターリソースを使用する必要のあるほとんどのアプリケーションにとって、SLAは保証をしない場合がある。他の特定のアプリケーション に対するS3の妥当性を決定する際に、Amazonの信頼性の評判および追跡記録はSLAよりもほかのほとんどにとって重要な傾向である。

SaaSコンピューターにおける最高の規格であると広く考えられているsalesforce.comが提供しないのは、おそらくSLA全般の沈滞した特質 が理由であるかもしれない。Salesforceがサービスにおける信頼を築き上げているのはtrust.salesforce.com のWebサイトであり、サービスの健全性に関するリアルタイムの情報を提供している。Salesforce.comの健全性が監視されたのは、同様の機能 停止(source)に対する反応の結果であった。サービスプロバイダへの満足度を見る別の有意義な方法は、その事態の対処方法である。その理由は、最高の状況下で問題が 発生するからである。たとえば、Technoratiはごちゃごちゃになったブログの対処方法が良かったので賞賛を得た(ブログ・英語)

Amazonはこういった教訓を得ているかもしれない。その機能停止によって、多くの顧客に有能であるAmazonの技術的なサービスの有効性とシステムの健全性についてのコミュニケーション間の対比が露わになった。それが大きな痛手となった。

InfoQはAmazonのスポークスパーソンにインタビューし、機能停止について話を伺った。Amazonは、 問題を把握しているようで早い段階で是正措置を取っていた。
ロケーションの1つで、 複数のユーザからの認証済み要求の上昇値が現れ始めてきた。全体の要求量を注意深くモニターし、それらが通常の範囲内であることを確認する一方、認証済み 要求の割合についてはモニターしてこなかった。重要なことは、これらの暗号要求は他のどんなタイプの要求よりも、呼び出しにつきさらに多くのリソースを消 費するということである。少しの間で、認証済み呼び出しを大幅に増加するユーザが出てきた。追加容量の導入を完了する前に、これらの最後が認証サービスの 最大容量を超えさせてしまった。認証リクエストの処理に加えて、認証サービスはAmazon S3が処理するすべての要求に対してアカウント検証を実施する。これによって、Amazon S3がそのロケーションで要求を処理することができなくなった。
その一方で、機能停止の間通信ができないことからイライラしたユーザもいた。Viewbook.comのオーナーであるRien Swagerman氏が、InfoQに以下のとおり語った。
非常に面白いことは・・・このような事態が発生した場合、Amazonはその状況に関する情報をほとんど提供していない。公開討論の場で徹底的にやりあって、情報を得る必要がある。しかもこの討論の場は(停止中)1時間、記事掲載がダウンしていた。
Amazonのスポークスパーソンが語ったところでは、Amazon.comおよびデベロッパの委員会がこの停止による影響を受けたということである。 Amazonは自社製品を使用しており、それはたいてい良い兆候であるが、クラウドコンピューターが 計算法を変えているかもしれない。

通信レベルに関する顧客からのクレームに対応して、Amazonはサービスレベルのダッシュボードを「間もなく」リリースすることを予定している。クラウドコンピューターおよびSaaSのテクノロジーは未だ開発中であるが、S3の停止は明らかに産みの苦しみである。FocusFriends.netのIvo Beckers氏は以下のように語っている。
これほどの質と料金でさまざまなサービスを提供しているベンダーは、他にいない。事実こうしたことが発生して、満足に思っている。さらに良質なサービスを提供するために業界がしのぎを削ることになるであろう。
急成長しているクラウドコンピューター市場において、特にAmazonは腕の見せどころとなる。年頭にEMCがEMC Fortress(source)を発売したが、それはMozyの買収を利用することで、当初はバックアップに狙いを定めたSaaSストレージプラットフォームである。今 週になって EMCがMicrosoft前幹部のPaul Maritz氏(source)を新たなCloud Infrastructure and Storage Divisionのリーダーとして迎え入れたと発表した。EMCは、Amazonよりもハイエンドなマーケットセグメントに絞り込んで、価格や信頼性のス ケールでより充実したオプションを提供しそうである。

価格を抑えつつ、可用性を改善するために設計者ができることは何か?Amazonのデベロッパの委員会の多くの人が、自分たちのWebサイトの信頼性が完 全にS3に依存しているという事実に嘆いていた。 キャッシュコピーはローカルで、レコードのストレージとしてS3を使用していたユーザは、それほど影響を受けなかった。InfoQはS3をビデオのバック エンドストアとして使用しており、EC2インスタンスでローカルキャッシュを保持するため、機能停止の影響を受けていない。可用性の改善の他に、S3から のデータ転送量を減らすことでローカルキャッシュはコストを削減することができる。

S3を使用しているだろうか?可用性を確実なものにするために何ができるか?

原文はこちらです:http://www.infoq.com/news/2008/02/s3-outage-trust-slas

この記事に星をつける

おすすめ度
スタイル

BT