BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース MapR社がHadoopをベースとした商用ディストリビューションをリリース

MapR社がHadoopをベースとした商用ディストリビューションをリリース

原文(投稿日:2011/07/07)へのリンク

MapR Technologies社は、Apache HadoopをベースとしHDFSの代わりとなる独自の分散ストレージを備えたビッグデータツールキットをリリースした。このソフトウェアは商用製品であり、無償バージョンであるM3と、有償バージョンであるM5が提供されている。M5には、データのスナップショット、ミラーリングのためのJob Tracker recoveryおよび商用サポートが含まれている。MapRのM5エディションはEMC Greenplumの近々リリースされるHD Enterprise Editionの基盤をなす。それに対して、EMC GreenplumのHD Community Editionは、MapRの技術ではなく、FacebookのHadoopディストリビューションをベースとしている。
 
先週のHadoop Summitにおいて、MapR Technologies社は 「Apache Hadoopの次世代ディストリビューション」が一般利用可能となったと発表した。InfoQは、同社のアプローチに関してより詳しく知るために、CEOのJohn Schroeder氏とマーケティングVPのJack Norris氏にインタビューを行った。MapR社は、MapReduceとHBaseのパフォーマンスを2-5倍改善し、Hadoopの単一障害点をなくしたと主張している。Schroeder氏は、競合となるディストリビューションに対してDFSIO、Terasort、YCSB、Gridmix、Pigmixなどのベンチマークを実施したと語った。また、氏が語るには、MapRの技術をテストしている顧客は、以前利用していたバージョンのHadoopに対して、3-5倍のパフォーマンス改善を確認しているとのことだ。Schroeder氏は、35のベータテスターが既におり、160クラスタまでのリニアな拡張性が確認できていると語った。ベータテストを行った顧客の何社かは既に本番稼働に入っており、140ノードのクラスタ環境を本番で利用している顧客や、2000ノードのMapRのデプロイを検討している顧客もいることをMapR社は発表した。ちなみに、 Yahooは最大のHadoopクラスタを運用していると考えられており、そのクラスタは4000ノードのApache Hadoopからなる。また、競合であるCloudera社は、2011年3月の時点で、Hadoopを本番運用している80社以上の顧客をもち、そのうち22クラスタのClouderaディストリビューションで、2011年7月の時点でペタバイトを超えるデータを運用していると発表している
 
MapRの分散ファイルシステムは完全なランダムアクセス読み取り/書き込みをファイル内でサポートしており、NFSゲートウェイを提供することにより、Hadoop FileSystem APIに加えて、旧来のPOSIXファイルシステムアクセスもサポートしている。MapRファイルシステムは、rawディスク上で動作する(ext4のようなファイルシステム上で動作するのではない)。したがって、独立したフォーマット済のボリュームが必要である。MapRは、ファイルシステムのレイヤでの圧縮をサポートしており、可用性のためにメタデータの複数の複製をクラスタ内で作成する。MapRはメタデータをノードをまたいで分散し、RAMにそれを保持する必要もない。このことにより単一のクラスタが一兆を超えるファイルをサポートすることが可能になるという。これは、HDFSとは異なる。HDFSは現在のところすべてのメタデータを一台のマシンのRAMに保持する。ClouderaとHortonworksは、ともにHDFSの単一障害点を取り除くことをHadoopコミュニティの最優先事項と位置づけている。また、HortonworksはHDFSのファイル拡張性を2012年の最優先事項と位置づけている。MapRファイルシステムはCで実装されており、ルーティングデータは、マルチスレッドのロッキング方式ではなくステートマシンを使って実装されている。MapRはこの分散ファイルシステムをHadoop shuffleを実装するために(httpの代わりに)利用しており、ノードの任意のペア間のコネクションを多重化することにより、大きなソート処理に対してより広い論理入力数を提供できる。
 
MapRの有償のM5バージョンは、1ノード、1年間あたり4000ドルで、ファイルのレプリケーション、スナップショット、ミラーリングをサポートし、24時間365日のサポートを提供する。また、MapRの商用M5ディストリビューションでは、障害発生時に数秒でJobTrackerを再起動する機能およびTaskTrackerが再接続する手段を含んでいる。これが意味するところは、ジョブが完了する際に数秒の遅延が発生するかもしれないが、進行中のジョブは継続実行され、完了するということだ。それに対して、Apache Hadoopでは失敗して未処理で残ってしまう。ファイルシステムのマスタープロセスがクラッシュした時には、他のレプリカが即座かつ透過的に処理を引き継ぎ、サービスの中断は発生しない。
 
MapRは、彼らが行った拡張をオープンソースプロジェクトに寄贈すると最近発表した。InfoQは、どの技術を貢献する予定なのかを尋ねた。Schroeder氏は、ZookeeperHBaseおよびMahoutに対する修正を強調した。Schroeder氏は、それ以外のテクノロジに関しても顧客にとって利点があるのであればオープンソースにしていく考えがあると述べた。しかしながら、氏が話した何組かの顧客は、いくつかのテクノロジに関してはクローズドソースのままでも気にしないと考えていると付け加えた。Schroeder氏は、アプリケーションが標準API上で動作および実行されることを強く望んでおり、将来にわたって継続していくと語った。
 
InfoQは、Schroeder氏にHadoopのガバナンスについて尋ねた。Schroeder氏は次のように答えた。「MapRは、Apache Hadoopコミュニティの一部であることをの望んでおり、最初からそうであった。Hadoopにより発行されたものがデファクトスタンダードになる。氏は、ANSI SQLやNFSのようなAPIの標準化や認定環境の提供を行うコンソーシアムがあればよいと考えている。InfoQは、Schroeder氏にHadoopのいくつかの主要な技術がフォークされる危険性について尋ねた。Schroeder氏は、次のように答えた。「フォークという言葉にはうんざりしています。しかし問題なのはコミュニティの分断なのではないでしょうか。」氏は、次のように尋ねた。「変更なしにイノベーションが必要なプラットフォームをどのようにして改善していくのでしょうか。」氏にとっては、API層が真に重要である。氏は次のように雄弁に尋ねた。「もしNameNodeが単一障害点であったり、うまく動作しなかったり、スケールしなかったりした場合、修正することは許されないんでしょうか?」 拡張に当たって、Hadoop MapReduceの関数呼び出しを用いなければならない。そうしないとDatameer(Hadoop用のグラフィカルBIツール)を使えないだろうと氏は語った。Hadoopは、プロダクトを成熟させていくために多くのイノベーションと大量のエンジニアリソースを必要としているオープンソースであり、それはLinuxやMySQLと異なりHadoopが技術面が成熟する前に人気となったことが理由だとSchroeder氏は論じた。
 
MapRのディストリビューションはApache Hadoopを含めて、Clouderaディストリビューションと共通する多くのHadoopエコシステムのコンポーネントを含む。その中には、HBaseやFlumeSqoopOozieなどが含まれる。それらに加えて、MahoutとCascadingを含むが、Hueは含まない。MapRは独自の管理ツールとAPIを提供し、それらを使ってインストールや設定、データ配置、モニタリングを行うことができる。Apache Hadoopが採用しているHadoop Securityアプローチではなく、MapRはPAM認証アプローチや権限の委譲を含むLinuxのネイティブセキュリティをサポートしているとNorris氏は語ってくれた。
 
Cloudera社は、データベースやBIツールとの統合のため、11の統合パートナーを発表した。その中には、Quest、Teradata、Netezza、Vertica、Microstrategyが含まれる。QuestのOracle-Hadoop connectorのようなSqoopデータベースコネクタの全ては、MapRで動作するとMapR社は語っている。MapRはデータベースのNFSクライアントを利用することを統合アプローチとして好んでおり、EMC Greenplumとのさらなる統合に取り組んでいる。Cloudera BI connectorsのすべては、MapRでも動作するが、たとえばCSVデータを生成しJDBC経由で読み込むなど、BIツールからODBC、JDBC、NFSアクセスをサポートすることが望ましいとMapR社は話している。

この記事に星をつける

おすすめ度
スタイル

BT