IBMのAlphaworksのウェブサイト上で、Hadoopを使用したアプリケーションの開発を簡単にするためのEclipseプラグインをリリースしたと発表された。Hadoopは、当初、Googleがクラスタによる大規模データの並列処理として広く利用している分散ファイルシステムと、MapReduceのプログラミング構造を含んだNutchのために作成されたものであった。今年は統合作業が行われ、AmazonのEC2プラットフォーム上で、HadoopのMapReduceアプリケーションを実行し、ストレージとしてAmazon S3プラットフォームの利用が簡単になった。Amazon Web Servicesのブログでは、次のように書いている。EC2インスタンス間の帯域と、S3に格納されたデータは従量制で請求されないので、大量のデータを処理するのにコスト効率のよい方法である。
IBMのMapReduceプラグインは、以下の特徴がある。
- JavaプロジェクトをJARファイルで、Hadoopサーバ(ローカル、リモート共に)上にパッケージ、デプロイが可能
- 開発プロセスを支援するcheat sheets
- Hadoopサーバ、Hadoop分散ファイルシステム(DFS)、現在のジョブの状態を見るための分離したパースペクティブ
- MapReduceフレームワークを基にクラスの開発を促進するエキスパート
さらに、改善されたcheat sheetsを含んでいて、Mac OS Xとも互換性がある。そのプラグインは、HadoopとのやりとりにSCPとSSHを使用し、ジョブの状態監視にHTTPを使用する。.
(原文は2007年3月28日にリリースされた記事です)