2010年の Hadoop Summit が Yahooの Chief Product Officerである Blake Irving氏によるブブゼラの鳴り響きで、始まった。 Yahooは、基調講演で、彼らのHadoop の使用規模、貢献の技術的方向、そしてこの技術の応用方法でのアーキテクチャ上のパターンについての概要を語った。
Hadoop への興味が増加しているのは、明白である:今年のカファレンスには、1000人が参加し、開始の10日前に入場券は、完売した。2年前の参加が約300人,昨年が650人であった。Javaの父であるJames Gosling 氏もカンファレンスに出席した。このカンファレンスは、Hadoopの5周年(おそらく)であった。 Irving氏は、世界中のデータのわずか5%が構造化されていて、一方構造化されていないデータは、ものすごく増えている、そしてこの新しいデータは、一時的な性格なものではない、と注意している。彼は、Yahooは、全ページのクリックを分析するのにHadoopを使い、コンテンツのランキングを最適化し、7分毎にその結果を更新している、と強調した。彼は、「我々は、今やHadoopは,メインストリームのエンタープライズに使用できる、と信じている」と語った。
Yahooの Cloud Computing 部門のSVPである Shelton Shugar氏は、Yahooは、1000億のイベントに対して、1日に120 TB のデータを入力し、現在、 170 PB(ペタバイト) の容量に対して70 PB 保存している。Yahooは、日に 3 PB処理して、38,000 のサーバー上で100万ジョブ以上走らせている。Yahooの Hadoop の使用増加に伴い、Yahooは、メインストリームのアプリケーション プログラマー、より優れた管理ツールそしてデータ セキュリティへのサポートを確立する必要がある、と彼は語った。彼は、Yahoo は、稼働中の様々な製品にHadoopを使っている,といった:
- データ分析論
- コンテンツの最適化
- コンテンツの改良
- Yahoo! Mail Anti-Spam (メール アンチスパム)
- 広告製品
- 広告の最適化
- 広告の選択
- 大容量データの処理とETL
Yahooは、また応用科学の用途でもHadoopをよく使っている、例えば:
- ユーザの興味予測
- 広告目録の予測
- 検索の順位付け
- 広告対象の予測
- スパムの除去
YahooでHadoop ソフトウェア開発部門のVPであるEric Baldeschwieler氏が、昨年語ったのは:
- 各クラスタ当たりのノード数を2000から4000に増やした
- ノード当たりのジョブ数が倍になった、これは、ムーアの法則によってCPUパワーが増加したことの恩恵である。
- 今や、ディスクの使用率は、80%を超え、典型的には、CPUの使用率も50-60%で、処理よりもデータの使用の方が急激に増えている。
- Hadoopへの全パッチの70%以上を寄付した。
昨年、彼は HadoopのMapReduceの改善に注力した:
- 新しいキャパシティ スケジューラ
- 入り交じった負荷をサポートするようにJobTrackerの安定性と堅牢性
- リソースの使用に制限を加えた:安全レール
今彼らの焦点は、 Hadoopの分散ファイルシステム、HDFSを開発することである:
- クラスタ中の各ノードは、12 TB の容量を持つ。1クラスタで48PB(ペタバイト)-NameNodeのスケーラビリティ制限により「これは、 Hadoopの精神を吹き飛ばす」
- メモリ、コネクション,バッファの使用の改善とメトリクスの提供
- ストレージを1組のボリュームに分割(複数のHDFSクラスタを使用)
- 次のメジャーな Hadoopのバージョンで 複数のHDFSインスタンスに跨いで、連合ストレージをリリースする
Baldeschwieler氏は、いかにYahooは、彼らのホームページをカスタマイズしているかを説明した:
- リアルタイムのサービス システムは、Apache を使って、データベースから、ユーザと興味へのマップを読み込む
- 5分毎に、製品版のHadoopクラスタを使って、最近のデータを元にコンテンツの順位付けを行ない、7分毎に結果を更新している
- 毎週、科学用Hadoopクラスタで、分類のためのマシン学習モデルを再計算する
Yahoo Mailも同様な方法でHadoopを使っている:
- 製品のクラスタで頻繁にスパムモデルに対してメールをチェックする
- 毎数時間毎に科学用クラスタでアンチ-スパム モデルを再評価する
- このシステムは、1日に50億のメールを4億5000万以上のメールボックスに配送する。
HDFSは、単一の障害箇所が(NameNode)存在しえるので、高可用性な稼動システムでは、それがリスクとなる。それを軽減するために、Yahooは、データを複数のクラスタにコピーしているので、1つの分散ファイルシステムが故障しても、バックアップ ファイルシステムを使って、補うことができる。彼らの発表では、Yahooは、彼ら独自の Pig プロジェクトに加えて、Hadoop のHive データウェアハウス プロジェクトを使っている、とのことである。
Baldeschwieler氏は、Hadoop Securityのベータテスト版をリリースしたと発表した。これは、認証にKerberos を使い、これにより、同一クラスタ内で、ビジネス上の極秘データでもコロケーションが可能である。彼らは、また Oozieをリリースした。これは、Hadoop用のワークフロー エンジンで、YahooにおいてデファクトのETL標準になっている。それは、 MapReduce, HDFS, Pig そしてHadoop Securityと統合されている。
全体的に、Yahooは、Hadoop技術の開発において、変わらぬリーダーシップを示した。同時に,彼らは明らかに、いくつもの主要なインターネット会社や独立の技術ベンダーが、エコシステムの一部として現れてきたのを喜んでいた。