データ解析サービスプラットフォームのTrifactaは先頃,データアナリストのデータラングリング(Data Wrangring)作業支援という同社の活動を推進するため,VCによる出資を受け入れた。目標はデータ収集とクレンジング,マージといった作業を,現在よりはるかに少ない時間と労力で可能にすることだ。
データラングリングは従来,どのビッグデータプロジェクトにおいても非常に時間と労力を要する作業だった。現代はさまざまなデータがあふれて入り混じり,データソースの進化によってその特性も常に変化している。NoSQLデータベースはこの問いに対して,列ベースあるいは文書ベースなどの手法で,ストレージ側からの回答を試み続けている。しかしデータを収集して意味付けするという問題が残ったままだ。
Trifactaはこの問題に対して,開発者ではなくユーザ中心の観点からアプローチしている。ビジネスアナリストとデータサイエンティストを対象に,ビジュアル指向の方法でデータセットのクレンジングを可能にするのだ。バークレー大学とスタンフォード大学の研究に基づくこのプラットフォームでは,オペレータとマシンの連携によってデータセットから洞察を抽出することを目指している。
ビッグデータからの自動スマートサンプリングとビジュアル化によって,アナリストは,注目すべきパターンを短時間で見つけ出すことができる。そうすればTrifactaが,機械学習アルゴリズムを適用して,取得した情報の再編成と形式化を行う方法を提案してくれる。アナリストはデータセットを情報の論理的集合にグループ化して,それを一歩ずつ正規化した上で,結果を作業工程に従ったユーザフレンドリな方法で視覚化する。最終ステップでは,半ば構造化されたデータセットを形式化することによって,データ全体を一般化する。プラットフォームは,データアナリストがデータ全体を徹底的に変換できるように,ユーザエクスペリエンスを念頭に置いてゼロからデザインされている。データをクレンジングしてデータウェアハウスに格納するために,複雑なパイプラインを開発する必要はない。
Trifactaの前身である研究プロジェクトのDataWranglerとその研究論文がオンラインで公開されている。Trifactaはまだクローズドベータで招待制のデモが計画されているのみだが,どのようなものかを垣間見ることはできる。