LinkedInによるHadoop用ライブラリのコレクションDataFuプロジェクトが1月第1週,正式にApache Software Foundation(ASF)のインキュベーションプロジェクトになった。
DataFuは当初Pig用のUDF(User-Defined Function)のコレクションを中心として,2012年1月に開始されたプロジェクトだ。Piggybankなど有名なUDFのコレクションに比較すると,分位数計算やサンプリング法といった,データマイニングあるいは統計機能が中心だ。しかし2013年10月には,DataFu Hourglassという新しいライブラリがプロジェクトに加わった。Hourglassは,増分データをジョブで処理するためのMapReduce用ライブラリである。通常このような処理は,前回のジョブの状態をHDFS内に保存しておいて,新たな入力を処理するためにそれを使用する,という方法で行われる。どちらのプロジェクトも現在,インキュベータの一部となっている。
Apacheのインキュベーションになったのは,DataFuにとって偉業と呼ぶに相応しい。プロジェクトがインキュベーションに受け入れられるには,厳格な調査を通過した上で,投票プロセスを経由しなければならないからだ。DataFuは2012年始めからApacheと関わりを持っていたが,インキュベータとして受け入れられたのは2014年始めになってからだった。インキュベーションにいるApacheプロジェクトの卒業には通常,かなり長い時間を必要とする。プロジェクトのインフラストラクチャ(wiki, メーリングリスト,チュートリアルなど)が完成すれば,DataFuはASFの独立したトッププロジェクトになるか,あるいはHadoopのサブプロジェクトになるだろう。
Apacheインキュベータに採用されたDataFuには,近い将来に向けた拡張計画が目白押しだ。もっとも重要な機能性のひとつは,より広範に採用されるために,UDF用と同じセットをHiveやCrunchに対しても用意することである。その一環として,プロジェクトのビルドシステムを,DataFuコミュニティが現在開発中であるGradkeに移行する作業が進行中だ。AntからGradleに切り替えることで,新機能の追加プロセスがより簡単になり,DataFuコミュニティの統合がさらに促進されると期待できる。
DataFuコミュティは小規模ながら,着実に拡大している。Russell Jurney氏による先日のコントリビューションによって,Open NLPプロジェクトがDataFu 1.3.0の一部として提供されるようになった。メーリングリストでの話題の中心は,UDFをさらに追加して,DataFuを“ビッグデータのWD-40(米国で一般的な潤滑スプレー)”にすることだ,とコントリビュータのMatthew Hayes,Sam Shah両氏は述べている。