InfoQ ホームページ MapReduce に関するすべてのコンテンツ
-
NoSQLの技術を使ったBlogの感情分析
企業がソーシャルメディアを使って製品や企業自体の評判を調べる傾向が顕著になっている。これに伴い、単語と定量的メトリクスを使い、ブログの記事に含まれる感情を分析するという独特の課題が現れている。InfoQはブログの感情分析プロジェクトついてSubramanian Kartik氏に詳しい話を聞いた。
-
HPCC Systems、EC2にBig Data Delivery Engineをローンチ
LexisNexis傘下のHPCC SystemsがAmazon EC2にThor Data Refinery Clusterをローンチした。HPCC Systemsは企業向けのオープンソース化されたビッグデータ分析技術プラットフォームであり、膨大なデータの取り込み、変換、連結、インデックス作成ができ、ノードに分散した並列処理能力を備えている。
-
Big Data - 進化か,革新か?
Cap Gemini の Steve Jones 氏が先日の記事で NoSQL/Big Data について,本当にベンダが我々に信じ込ませようとしているような万能策なのか疑問を呈している。氏が指摘するのは,場合によってはインメモリ RDBMS が最善のソリューションとなり得ること,そして典型的な IT 部門にとって Map Reduce のようなアプローチの理解は難しすぎることだ。結論として氏は,Big Data が場合によっては Big Con (大嘘) であり得る,と忠告する。
-
ハイパフォーマンスコンピューティング用の新リソースで,科学技術コミュニティへの展開を図る AWS
Amazon Web Service (AWS) チームは,科学分野におけるハイパフォーマンスコンピューティングへのニーズを対象とするリソースセットを発表した。特に "スポット料金 (spot pricing)" マーケットについて,Amazon クラウド環境における費用対効果の高い大規模コンピューティングの手段として強調している。
-
Yahoo HadoopからスピンアウトしたHortonworksが計画を発表
Yahooは中核Hadoopチームをスピンアウトし、新しくHortonworks社を作った。CEOのEric Baldeschwieler氏はHadoopの採用を容易にし、可用性、パフォーマンス、管理に関する同社の中核技術の改善に関するビジョンを発表した。Hortonworks社は主にパートナーを通じてサポート、トレーニング、保障が販売される。
-
MapR社がHadoopをベースとした商用ディストリビューションをリリース
MapR Technologies社は、Apache HadoopをベースとしHDFSの代わりとなる独自の分散ストレージを備えたビッグデータツールキットをリリースした。このソフトウェアは商用製品であり、無償バージョンであるM3と、有償バージョンであるM5が提供されている。M5には、データのスナップショット、ミラーリングのためのJob Tracker recoveryおよび商用サポートが含まれている。MapRのM5エディションはEMC Greenplumの近々リリースされるHD Enterprise Editionの基盤をなす。
-
アップグレードと異なるプ��グラミングパラダイムのためのHadoop再設計
YahooはHadoopのMap-Reduceのアーキテクチャの中核部分を再設計し、簡単に更新でき、より多くのクラスタで動作し、高速回復をサポートすることを発表した。また、Map-Reduce以外のプログラミングパラダイムもサポートする予定だ。再設計されることでMap-Reduceを制御するHadoopの中核部分はリソースマネージャに切り出される。このリソースマネージャがさまざまな分散処理のパラダイムをサポートする。また、Map-Reduceはユーザが利用できるライブラリになるので、同じクラスタで複数のバージョンのMap-Reduceコードを実行できるようになる。新しい設計はクラスタマネジメントプロジェクトであるオープンソースのMesosに似ている。Yahoo!とMesosは両者の違いと利用機会についてコメントした。
-
-
Percolator: 大規模データ用の逐次更新処理システム
Google の Daniel Peng,Frank Dabek の両氏は "分散トランザクションと通知を用いた大規模逐次処理 (Large-scale Incremental Processing Using Distributed Transactions and Notifications)" という論文を発表した。この中で両氏は,Google のインデックスシステムのような,数十ペタバイトのデータを数千台のマシンを用いて1日当たり数十億回更新するようなシステムに求められるストレージあるいはスループット要件に対しては,データベースが適切な選択ではないことを論証している。
-
Cloudantが CouchDB用のJavaベースのView Serverをリリース
CouchDBの開発会社であるCloudant がCouchDB用のJava View Serverをごく最近、リリースした。その意味は、Map-Reduce のジョブ書くのに、Erlang とJavascript やPythonのようなインタープリタ言語だけではなく、JVMベースの言語でも使える、ということである。
-
LinkedInのデータ基盤
LinkedInのJay Kreps氏はどのようにデータを処理しているか、最近のHadoop Summitの発表で詳しく説明した。Kreps氏は、LinkedIn が大量ユーザ/短応答時間でサイトのサービスを提供しながら、1日に1200億もの関連を高速処理し大規模データの計算結果を集計している方法について解説した。
-
Hadoop Summit 2010からYahoo! のアップデート
2010年の Hadoop Summitが Yahooの Chief Product Officerである Blake Irving氏によるブブゼラの鳴り響きで始まった。 Yahooは、基調講演で、彼らのHadoop の使用規模、貢献の技術的方向、そしてこの技術の応用方法でのアーキテクチャ上のパターンについて要約した。
-
Adobe が Hadoop のための Puppet レシピをリリース
Adobe は先日,Hadoop/HBase デプロイメントを自動化するための Puppet レシピをコミュニティ向けにリリースした。InfoQ では PuppetLabs の創設者である Luke Kanies 氏に,その目的について詳しく聞いた。
-
Apache Mahout: 拡張性の高い機械学習アルゴリズム
Apache Mahoutプロジェクトは、拡張性の高い機械学習に関するライブラリのセットであるが、先日初めてのパブリック・リリースを発表した。InfoQではMahoutの共同設立者でありLucid Imaginationにおける技術スタッフでもあるGrant Ingersoll氏とプロジェクトについて、及び機械学習全般について話をした。
-
AmazonがEC2向けHadoopベースのMapReduceをリリース
ポピュラーになったApache Hadoop MapReduceフレームワークをAmazon EC2上で実行する方法を詳しく述べているチュートリアルが、かなり長期に渡り利用可能になっている。Amazonは4月2日にAmazon Elastic MapReduceによる公式サポートを提供し、そのレベルアップを行った。