Ayasdiは昨月、Apache Hadoopの最大のディストリビュータであるClouderaとの業務提携を発表した。この業務提携は、Cloudera Enterprise 5 (Apache HadoopをベースとするClouderaのビッグデータプラットフォームの最新版) に対する、Ayasdiのソリューションの対応を保証するものだ。
Ayasdi (チェロキー族の言葉で「探す」という意味) は、データ解析を行うスタートアップであり、高次元かつ多量のデータ集合から洞察を得る、ある革新的な手法を商業化するために、3人の数学者によって2008年に設立された。Topological Data Analysis(TDA) と呼ばれるこの手法は、国防高等研究計画局(DARPA)とアメリカ国立科学財団(NSF)との資金提供を受け、General Electric、 Merck、 アメリカ食品医薬品局(FDA)、アメリカ疾病予防管理センター(CDC)といった顧客に対して、クエリやアルゴリズムを記述することなく、彼らの持つデータの幾何学的構造を明らかにし、より可視化しやすく対話的に探索しやすい簡潔な要約データを作ることを可能にしている。
背景となる基本的な考え方は、データには形状があり、形状には意味があるということだ。TDAでは、基本的にはデータは空間上の点の大きく有限な集合として表現される。そして、点が互いにどのように関係しているかを説明するために、形状が使われる。たとえば、形状の単純な観点のひとつである「いくつの部分に分けられるか」あるいは、「どうやってクラスタに分けられるか」ということが、ある現象の、概念的に異なる部分を明らかにできる。また別の観点「ループが存在するか」は、繰り返しや周期性のある振る舞いを表す可能性がある。トポロジは、まさにこの形状についての考え方を研究する数学の一分野であり、TDAは、このように定性的な幾何情報を定義し測定するための数学的な定式化を、大きくてノイズを含む点の集団にまで拡張することを目指している。
技術的な面から見ると、Ayasdi Platformは大量の顧客のデータを管理するためにCDH5のHadoop Distributed File System(HDFS)を活用しており、ランダムにアクセスされ頻繁に更新される一部の運用上のメタデータを保存するためにHBaseを利用している。AyasdiのチーフアーキテクトであるLawrence Spracklen氏によれば、同社は様々なETL活動のためにSparkを利用しており、また、ドライブのパフォーマンス、頑健性、オーバーヘッドの少ないセキュリティの支援を受けるためにIntelと提携しているが、トポロジネットワークの計算と分散処理にはカスタムの非Hadoopスタックを使用しているという。
Ayasdiの顧客によって使われている最大のClouderaクラスタのサイズについて訊ねると、スケールは話のひとつの側面でしかないとLawrence氏は説明した。
Ayasdi Data Platformは水平にスケール可能であり、容易に何十ものノードへスケールすることができます。しかしながら、Clouderaクラスタのサイズは、データの複雑さに伴うデータセットの総サイズに比べれば、それほど興味深いものではありません。そもそも、データ分析技術の進歩は、データ処理環境のペースの速い変化と成長に追いついていません。データ分析技術の開発の不足は、非常に複雑で高次元のデータを分析するために必要となる計算と技術によって生じる固有の課題に起因しています。Ayasdiのソリューションは非常に複雑なデータについての洞察を得るために作られています。たとえば、ガン、PTSD、糖尿病といった医学的な障害、疾患のデータセットも含まれます。それらのデータセットは必ずしも大きいとは限りませんが、非常に複雑である傾向があります。
YouTubeにて、TDAについてさらに詳しく調査した動画(動画1, 動画2)が公開されている。International Conference on Machine Learning (ICML)は、Topological Data Analysisと機械学習理論のワークショップを2012年に開催した際に、同じ目的のPDFを提供している。さらに具体的な例として、Institute for Computational and Mathematical Engineering at Stanford University (ICME)が、高次元データを単純化した描写データを抽出するための計算手法を発表している。