BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Apache Spark 2.0テクニカルプレビュー

Apache Spark 2.0テクニカルプレビュー

原文(投稿日:2016/05/31)へのリンク

Databricksは、Apache Sparkの最初のリリースの2年後に、上流ブランチ2.0.0-previewを基にした、Apache Spark 2.0のテクニカルプレビューを発表した。このプレビューは、安定性とAPIの両方の観点で本番環境向けではなく、一般提供リリースの前にコミュニティからのフィードバックを集めることを目的にしているリリースである。

この新リリースは、コミュニティからのフィードバックを基にした機能改善に重点的に取り組んでいる。Sparkの開発に関して、2つの主な改善領域がある。

Apache Sparkベースのアプリケーションで最も使われているインタフェースの1つは、SQLです。Spark 2.0は、主としてSQL:2003仕様を基にした、99個のTPC-DSのクエリ全てのサポートを提供している。これだけでも、アプリケーションスタックの最小限の書き直しで、既存のデータロードをSparkバックエンドに移行するのに役立ちます。

2つ目の領域は、プログラミングAPIを基にしている。この新リリースでは、機械学習に大きく重点が置かれている。spark.mllibパッケージが非推奨になり、 DataFramesを基にした新しいspark.mlパッケージが、既存のspark.mllibと同等の機能を提供するようになったら、それを置き換える予定である。DatabricksのエンジニアであるXiangrui Meng氏によれば、これは今後8か月で起こる可能性がある。メーリングリストで説明されているように、spark.mllibは引き続き利用可能だが、メンテナンスモードに入っている。Sparkでサポートされる全ての言語で、機械学習のパイプラインとモデルを永続化できるようになった。 Rで、K-Means、一般化線形モデル (Generalized Linear Models、GLM)単純ベイズ (ナイーブベイズ)、生存回帰 (Survival Regression) がサポートされるようになった。

ScalaとJavaのプログラミング言語向けに、構造化ストリーミングのための抽象化としても機能する 新しいDatasetsクラスで、DataFramesとDatasetsが統一されるようになった。コンパイル時型安全性をサポートしていない言語では、これは適用されず、代わりにDataFramesが引き続き主な抽象化となる。SQLContext、HiveContextは、統一されたSparkSessionで置き換えられるようになった。最後に、新しいAccumulator APIが、より単純な型階層を持ち、プリミティブ型の特化をサポートする。古いAPIは非推奨になっているが、後方互換性のために残されている。

新しい構造化ストリーミングAPIは、プログラマと既存の機械学習アルゴリズムが、複雑さを加えることなしに、バッチでロードされたデータセットを扱うのと同様に、ストリーミングデータセットを管理できるようにすることを目標にしている。また、第2世代のTungstenエンジンでパフォーマンスも改善しており、最大で10倍高速な実行を可能にしている。

テクニカルプレビューリリースは、DataBricksで入手可能である。

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

BT