Facebookが開発したPrestoは大規模なデータにインタラクティブにSQLを実行できるが、始めてメインストリームの利用例が生まれた。ビックデータ関連のスタートアップであるQuboleAmazon Web Servicesと統合したPresto-as-a-Serviceのアルファ版を発表した。
この新しいサービスはQuboleの成長著しいプラットフォームであるQubole Data Service(QDS)にフィットする。QDSはすでにHadoop、Hive、Pigと統合されている。Prestoの性質はこの種のマネージドサービスに適している。Hive、HBase、リレーショナルデータベースと統合されているからだ。Quboleの共同創業者であるAshish Thusoo氏とJoydeep Sen Sarma氏にとってこれは自然な方向だ。S3に保存されたHiveのテーブルのデータに対して問い合わせをするというのがこのサービスの使い方のひとつのようだ。QDSのユーザは数分でこれらのテーブルに問い合わせを実行できる。Quboleのサービスは現在、AWSを中心に構成されている。理由は、Ashish氏によれば、“需要を認めた”からだと言う。Quboleは高価なデータウエアハウスを置き換えるものと位置づけられている。Quboleのエンジニアリング担当のバイスプレジデントであるShrikanth Shankar氏が言うように“Prestoは高価な商用技術に依存せざるを得なかったユーザに圧倒的な価値を提供します。”
Prestoはビッグデータの世界では比較的新しい技術だ。Facebookでプロジェクトが始まったのが2012年。実際に利用され始めたのがin 2013年の前半。そして2013年11月にオープンソースになった。Prestoの実行モデルはHiveとは根本から違う。MapReduceは使ってない。ClouderaのImpalaやUC BerkeleyのSharkに似たSQLエンジンだ。すべての処理がメモリ内で行われ、Ashish氏曰く、“インスタンスのメモリが多ければ多いほど、威力を発揮する”。したがって、Hiveよりも遥かに遅延が少なくてすむ。とはいえ、Hive 12と比べた場合はどうかはまだわからない。the Stinger projectで高速化がはかられているからだ。Ashish氏が説明するように、
Hiveはまだ高速になっている。我々はいくつかのテストを行っている。近いうちに結果を公表するつもりだ。
スケーラビリティを考慮した場合、Facebookの300ペタバイトのデータをあつかっているのは十分な実績だろう。AirBnbやDropboxなどほかの企業も使い始めている。“私たちのほとんどの利用シーンにおいて、Hiveよりも遥かに高速です。”、とChristopher Gutierrez氏は言う。氏はDropboxでオンラインアナリティクスのマネージャを努めている。
Quboleの新しいサービスの副作用のひとつはPrestoのコミュニティの成長がより強力になるということだ。Siva Narayanan氏のようなQuboleの開発者もPrestoの世界のよき住人を育て新しい機能やバグ修正に貢献してくれるようになってくれることを期待していると書いている。既にGithub上では2,000のスターが付き、350のフォークがあり、Impalaのような同種のプロジェクトよりも人気になっている。