BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Hadoop Summit 2010からYahoo! のアップデート

Hadoop Summit 2010からYahoo! のアップデート

原文(投稿日:2010/07/12)へのリンク

2010年の Hadoop Summit が Yahooの Chief Product Officerである Blake Irving氏によるブブゼラの鳴り響きで、始まった。 Yahooは、基調講演で、彼らのHadoop の使用規模、貢献の技術的方向、そしてこの技術の応用方法でのアーキテクチャ上のパターンについての概要を語った。

Hadoop への興味が増加しているのは、明白である:今年のカファレンスには、1000人が参加し、開始の10日前に入場券は、完売した。2年前の参加が約300人,昨年が650人であった。Javaの父であるJames Gosling 氏もカンファレンスに出席した。このカンファレンスは、Hadoopの5周年(おそらく)であった。 Irving氏は、世界中のデータのわずか5%が構造化されていて、一方構造化されていないデータは、ものすごく増えている、そしてこの新しいデータは、一時的な性格なものではない、と注意している。彼は、Yahooは、全ページのクリックを分析するのにHadoopを使い、コンテンツのランキングを最適化し、7分毎にその結果を更新している、と強調した。彼は、「我々は、今やHadoopは,メインストリームのエンタープライズに使用できる、と信じている」と語った。

Yahooの Cloud Computing 部門のSVPである Shelton Shugar氏は、Yahooは、1000億のイベントに対して、1日に120 TB のデータを入力し、現在、 170 PB(ペタバイト) の容量に対して70 PB 保存している。Yahooは、日に 3 PB処理して、38,000 のサーバー上で100万ジョブ以上走らせている。Yahooの Hadoop の使用増加に伴い、Yahooは、メインストリームのアプリケーション プログラマー、より優れた管理ツールそしてデータ セキュリティへのサポートを確立する必要がある、と彼は語った。彼は、Yahoo は、稼働中の様々な製品にHadoopを使っている,といった:

  • データ分析論
  • コンテンツの最適化
  • コンテンツの改良
  • Yahoo! Mail Anti-Spam (メール アンチスパム)
  • 広告製品
  • 広告の最適化
  • 広告の選択
  • 大容量データの処理とETL

Yahooは、また応用科学の用途でもHadoopをよく使っている、例えば:

  • ユーザの興味予測
  • 広告目録の予測
  • 検索の順位付け
  • 広告対象の予測
  • スパムの除去

YahooでHadoop ソフトウェア開発部門のVPであるEric Baldeschwieler氏が、昨年語ったのは:

  • 各クラスタ当たりのノード数を2000から4000に増やした
  • ノード当たりのジョブ数が倍になった、これは、ムーアの法則によってCPUパワーが増加したことの恩恵である。
  • 今や、ディスクの使用率は、80%を超え、典型的には、CPUの使用率も50-60%で、処理よりもデータの使用の方が急激に増えている。
  • Hadoopへの全パッチの70%以上を寄付した。

昨年、彼は HadoopのMapReduceの改善に注力した:

  • 新しいキャパシティ スケジューラ
  • 入り交じった負荷をサポートするようにJobTrackerの安定性と堅牢性
  • リソースの使用に制限を加えた:安全レール

今彼らの焦点は、 Hadoopの分散ファイルシステム、HDFSを開発することである:

  • クラスタ中の各ノードは、12 TB の容量を持つ。1クラスタで48PB(ペタバイト)-NameNodeのスケーラビリティ制限により「これは、 Hadoopの精神を吹き飛ばす」
  • メモリ、コネクション,バッファの使用の改善とメトリクスの提供
  • ストレージを1組のボリュームに分割(複数のHDFSクラスタを使用)
  • 次のメジャーな Hadoopのバージョンで 複数のHDFSインスタンスに跨いで、連合ストレージをリリースする

Baldeschwieler氏は、いかにYahooは、彼らのホームページをカスタマイズしているかを説明した:

  • リアルタイムのサービス システムは、Apache を使って、データベースから、ユーザと興味へのマップを読み込む
  • 5分毎に、製品版のHadoopクラスタを使って、最近のデータを元にコンテンツの順位付けを行ない、7分毎に結果を更新している
  • 毎週、科学用Hadoopクラスタで、分類のためのマシン学習モデルを再計算する

Yahoo Mailも同様な方法でHadoopを使っている:

  • 製品のクラスタで頻繁にスパムモデルに対してメールをチェックする
  • 毎数時間毎に科学用クラスタでアンチ-スパム モデルを再評価する
  • このシステムは、1日に50億のメールを4億5000万以上のメールボックスに配送する。

HDFSは、単一の障害箇所が(NameNode)存在しえるので、高可用性な稼動システムでは、それがリスクとなる。それを軽減するために、Yahooは、データを複数のクラスタにコピーしているので、1つの分散ファイルシステムが故障しても、バックアップ ファイルシステムを使って、補うことができる。彼らの発表では、Yahooは、彼ら独自の Pig プロジェクトに加えて、Hadoop のHive データウェアハウス プロジェクトを使っている、とのことである。

Baldeschwieler氏は、Hadoop Securityのベータテスト版をリリースしたと発表した。これは、認証にKerberos を使い、これにより、同一クラスタ内で、ビジネス上の極秘データでもコロケーションが可能である。彼らは、また Oozieをリリースした。これは、Hadoop用のワークフロー エンジンで、YahooにおいてデファクトのETL標準になっている。それは、 MapReduce, HDFS, Pig そしてHadoop Securityと統合されている。

全体的に、Yahooは、Hadoop技術の開発において、変わらぬリーダーシップを示した。同時に,彼らは明らかに、いくつもの主要なインターネット会社や独立の技術ベンダーが、エコシステムの一部として現れてきたのを喜んでいた。

この記事に星をつける

おすすめ度
スタイル

BT