BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース IntelはApache Spark上で動作する分散型ディープラーニングライブラリであるBigDLをオープンソース化

IntelはApache Spark上で動作する分散型ディープラーニングライブラリであるBigDLをオープンソース化

原文(投稿日:2017/01/13)へのリンク

IntelApache Spark上で動作する分散型ディープラーニングライブラリであるBigDLをオープンソース化した。既存のSparkクラスタを活用して、ディープラーニングの計算を実行し、Hadoopに格納された大量のデータセットからのデータロードを容易にする。

テストにより、Xeonサーバで実行したときの性能が、他のオープンソースフレームワークであるCaffeTorchTensorFlowと比較して大きく向上した。このスピードは主流のGPUに匹敵し、BigDLは数十台のXeonサーバまで拡張することができる。

BigDLライブラリはSparkバージョン1.5、1.6、2.0をサポートし、既存のSparkベースのプログラムにディープラーニングを組み込むことができる。それはSpark RDDをBigDL DataSetに変換するメソッドを含み、直接Spark ML Pipelinesと共に使用することができる。

モデルのトレーニングのために、BigDLは単一のSparkタスクで実行される同期ミニバッチSGD (Stochastic Gradient Descent)を複数のエグゼキュータに適用する。 各実行プログラムは、マルチスレッドエンジンを実行し、マイクロバッチデータの一部を処理する。現在のバージョンでは、すべてのトレーニングデータと検証データがメモリにロードされる。

BigDLはScalaで実装され、Torchをモデルにしている。Torchと同様に、BigDLはIntel MKLライブラリを使って計算するTensorクラスを提供する。Intel MKLは、Math Kernel Libraryの略であるが、FFT(高速フーリエ変換)から行列乗算まで、最適化されたルーチン処理のセットを含むライブラリからなる。それは、ディープラーニングモデルのトレーニングに頻繁に使用される。Torchを参考にした他の概念はModuleであり、Torchのnnパッケージにインスピレーションを受けている。Moduleは個別のニューラルネットワーク層であるTableCriterionを表す。

BigDLはAWS EC2 imageイメージと、畳み込みニューラルネットワークを使用したテキスト分類画像分類、予測計算のためにTorchやCaffeで事前にトレーニングされたモデルをSparkに読み込む方法を提供する。コミュニティからの主な要求は、PythonのサポートとMKL-DNN、MKLのディープラーニング拡張である。

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

BT