Hadoop Summit 2014のメインテーマのひとつは,エンタープライズレベルでの導入に向けて急速に発展するHadoopプラットフォームだ。そこには信頼性やセキュリティ,スケーラビリティ,管理機能に関するギャップという問題も含まれている。同じく非常に明確なのが,実務におけるHadoop運用に取り組む講演数が増加したことだ。これはHadoopの採用目的が,ひとつの転換点に差し掛かっていることを示している。
今年のサミットは盛況で,昨年の2倍にあたる3,200人が参加した。昨年末のYARNのリリースから予測されたように,Hadoopプラットフォームを中心に,それを取り巻く形で多数のイノベーションが登場した。中でも注目すべきなのはApache Tezと,新たにテクニカルプレビューが公開されたApache Sliderである。HortonWorksはYARN対応の認定プログラムを発表した。これはパートナーアプリケーションが,YARNを通じてHorton Works Data Platform(HDP)に統合されていることを,ユーザに対して保証するものだ。AltiScaleのCEOであるRaymie Stata氏は,大規模サービスとしてのHadoopの稼働を成功させる重要な要素として,Dockerコンテナを使ってYARN内のアプリケーションを分離するというアイデアを,参加者に対して手短に紹介していた。HortonWorksのVinod Kumar Vavilapalli,Jian He両氏は,YARNの現在と将来についての説明に合わせて,今後予定されている重要な機能を公開した。
- ローリングアップデートに関する運用機能の強化
- ローリングアップデートを可能にするため,Resource ManagerとNode Managerの再起動の必要性を排除した。
- Map-Reduce以外のより多くのアプリに対応
- ログ処理とセキュリティ拡張,具体的にはアクセスの管理と管理および監視機能としてのAmbariの拡張を備えた長期実行サービス(Long Running Service)。
- CPUリソースから始まり,ディスクスペースやIOPS,さらにはネットワークリソースのさらに詳細な管理による,多次元的なリソーススケジューリング。
- カスタムメモリ管理,cgroups(CPU, メモリ),Linuxコンテナ(Docker),VMを通じた詳細なアイソレーション。
- その他の機能:
- アプリケーションSLA(Service Level Agreement)による予測可能性の確保 (Microsoftの寄贈)
- ノードラベル (AuthZによるユーザへの特殊なハードウェア割り当て)
- ノードアフィニティと非アフィニティ (ジョブとノードアフィニティの明示的宣言)
- オンラインキュー管理の改善
- アプリのサブミット,監視,停止を行うRESTful APIを通じたWebサービス
同じスプリントでHortonWorksのSanjay Radia氏とChris Nauroth氏は,Hadoopのセキュリティの状況について,以下のような分野の説明を行った。
- 認証
- 長期実行サービスを目的とした,デレゲーションやブロックトークンなどKerberos中心のアプローチ。
- Kerberos以外ではSSOとLDAPの統合をベースとしたKnox GatewayやSiteminder,最近ではOAuth。
- Apache Knoxの使用による境界保障と,REST APIを使用したマルチHadoopクラスタを視野に入れた単一アクセスポイント。
- 承認
- HDFS ACLによるHDFS POSIXパーミッションの拡張。既存の3レベルを越えて,getfaclとsetfaclを使った指名ユーザあるいはグループのような,よりリッチなモデルを導入する。
- HiveServer2で列レベル保護を管理するための(Pig構文とは異なる)DDL構文(GRANT/REVOKE)。
- ACLによって定義されるHBaseセルレベル認証。テーブルレベルACLの前あるいは後でアプリケーションによって評価される。このようなApache Accumuloスタイルのセル認識モデルにより,A BACモデルが可能になる。
- 集中的かつ詳細なセキュリティ管理と,HortonWorksが先日買収したXA SecureによるRBACベースの認証。後者は将来的に,Apacheのオープンソースプロジェクトへの昇格が予定されている。
- 監査
- コンポーネント固有の監査に代えて,XA Secureによる集中型の監査とコンプライアンス適合管理を導入。
- データセキュリティ
- ワイヤ暗号化。
- サードパーティベンダやアプリケーションを使用した保存データ暗号化。ClouderaはGazzangの買収を発表した。これにより,エンタープライズ級のデータ暗号化とキー管理を同社ユーザに提供する。
ここ最近の,主要なHadoopディストリビューションベンダによる活発なセキュリティベンダ買収は,規制産業と非規制産業を問わず,ユーザのセキュリティに関する懸念が拡大している兆候に違いない。
HortonWorksのアーキテクトであるJulian Hyde氏は,新たなデータセットを通じてメモリを効率的に使用するためのチャネルとして,クエリの最適化を構想中である。氏はこれをDIMMQ(Discardable In-Memory Materilized Queries)と呼んでいる。これは次のようなものだ。
- "Marerialized Query"(マテリアリズドクエリ)は,その内容が特定のクエリを実行した結果と同じであることが保証されているデータセットである。この問い合わせは,DIMMQの定義クエリ(defining query)と呼ばれる。そのため,定義クエリを使って充足可能な任意の問い合わせは,DIMMQでも充足可能であると同時に,より高速であることが期待できる。
- "Discardable"(破棄可能)とは,システムがそれを捨てることができる,という意味である。
- "In-memory"とは,Hadoopクラスタ上のひとつないし複数のノードのメモリ上にデータセットの内容が存在する,という意味である。
マテリアリズドビューはすでにApache Optiqの下で開発中だが,破棄可能であることとメモリ内管理については,HDFSの拡張として計画されている。
講演者の選任に対する批判的な意見もいくつかあった。その中のひとり,ClouderaのCTOであるAmr Awadallah氏は,次のようにツィートしている。
Hortonworksサミットの始まりです。本当の話,講演者がとんでもなく偏っていて,これはもうコミュニティイベントではありません #hadoopsummit
レスポンスでHadoop Worldについて質問された氏は,次のようにリプライした。
@egwada Hadoop Worldの名称は,偏向への誘惑を見事退けたO’Reilly Strataに捧げましょう。
YahooとHortonWorksはHadoop Summitで同じことをするべきなのか,読者の意見はどうだろう?