BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース AWS が低コストのデータアーカイブサービス Amazon Glacer を導入

AWS が低コストのデータアーカイブサービス Amazon Glacer を導入

原文(投稿日:2012/08/27)へのリンク

 

Amazon Glacier は,データアーカイブ用の永続ストレージをきわめて低いコストで提供する,AWS (Amazon Web Services) の新サービスである。大規模で使用頻度の低いデータセットを保持したいが,ローカルストレージ・インフラストラクチャの維持管理は望まない,という組織をターゲットとする。

Amazon では,企業情報のアーカイブやメディア資産履歴の保管,科学研究データのアーカイブ,さらには従来の磁気テープライブラリの置き換えなどを,このサービスの 中心的な用途 に位置付けている。この新サービスはストア可能なデータ容量が無制限であると同時に,イレブン・ナイン (99.999999999%) という永続性を誇る。ひとつの "アーカイブ (archive)" には 40TB のデータがストア可能で,各アーカイブはリージョン固有の "ボールト (vault)" に結び付けられている。保管中のアーカイブの内容は暗号化されていて,REST Web インターフェースを通じてのアクセスが可能である。ストレージの費用はリージョンによって異なるが,価格としては1GB 1ヶ月あたり $0.01 より,となっている。ユーザは自身のデータについて,毎月 5% までは無料で取得できる。それ以上のアクセスについては,さらに複雑な課金計算が適用される。また,Amazon S3 などのストレージサービスの検索時間が1ミリ秒単位であるのに対して,Amazon Glacier の検索時間は1時間単位となっている。サービスを発表したブログ記事では,AWS CTO の Werner Vogels 氏がこの件について,"データの取得はジョブをスケジュールすることで実施されるのですが,その完了には通常3~5時間を要します" と説明している。

このサービスは果たして,ストレージへのアプローチ方法を根本的に変えるだろうか – ZDNet の Jack Clark 氏は,Amazon Glacier を支援する技術を解析した記事に,このような疑問を上げている。氏は "Glacier がテープレスであると同時に,安価なコモディティハードウェア・コンポーネント で動作可能である" という点を指摘した上で,Hacker News にポストされた記事からその技術的基盤に関する情報を掲載している。

  • Glacier のハードウェアにおいてベースとなるのは,Amazon の "主要ハードウェアベンダ" が製作した,特注の低回転ハードドライブである。
  • ドライブは特製のロジックボードとともに専用のラックに収納される。システムのいくつかの制約によって,一度にフルスピードでスピンアップするドライブは,ラック内の一定数のドライブに制限されている。
  • Glacier にストアされたデータのアクセスに3~5時間というラグが発生する理由は,クライアントにダウンロードされる前処理として,このようなシステムからデータを取り出して中間ストレージに移動する必要があるためだ。

Clark 氏はさらに,Amazon がデータ取得処理中のみハードウェアの電源をオンにすることによるコスト削減をも実現している,と推測する。このような低消費電力化によって,ユーザに課される GB 単位コストの削減を達成しているのだ。

しかし後日データを取得する段になって,この制限はユーザにとってやっかいな問題になるのではないか,と Wired は考えている

それにしても,この検索料金には困惑させられます。 Amazon の料金表によると,ユーザは毎月 Glacier にストアされたデータの最大5%を無料で取得することができるのですが,ただしそれは日単位に配分されるのです。FAQ の説明に従えば,"ある時点で 12TB のデータを Glacier 上に保持している場合,1日に 20.5GB までのデータを無償で取得することが可能です ( 12TB × 5% / 30日 = 20.5 GB,ただし1月 = 30日で計算)"。FAQ の他の部分ではこれに関して,1日 0.17 % という表現も見られます ("5%/30日 = 1日あたり 0.17%)。

この制限を超えると,問題はさらに複雑になります。"1日あたりの許容量を超えた検索に対しては,検索料金が課される" と Amazon の FAQ には書かれています。"ある月の間に,1日当たりの許容量の超過があった場合,超過した日の中で最大の時間使用量に基づいて課金額が算出されます。" そして事態はさらに深刻になるのです。

"最大時間使用量" の算出方法が公開されていないため,Wired はユーザに対して,大規模なデータブロックを取得する場合は注意するように警告している。

サービス用の API はすでに公開されている。さらに 管理コンソール Amazon Management Consoleフレームワーク対応 SDK は,どちらも Amazon Glacier の機能に対応するように拡張されている。

 

この記事に星をつける

おすすめ度
スタイル

BT