InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
ClouderaがBroad Instituteとの提携を発表
ClouderaはMITとハーバードのBroad Instituteとの提携を発表するとともに,ゲノム解析ツールキットパイプラインに関する経験を公開した。
-
Databricks による、SparkとTensorFlowを用いたディープラーニング
昨年の終わり頃にGoogleが同社の機械学習ライブラリであるTensorFlowをオープンソースするという発表を行い、InfoQが取材をして以来、データサイエンスコミュニティは各々のプロジェクトでTensorFlowを試す機会を得た。
-
Apache Spark 2.0テクニカルプレビュー
Databricksは、Apache Sparkの最初のリリースの2年後に、上流ブランチ2.0.0-previewを基にした、Apache Spark 2.0のテクニカルプレビューを発表した。このプレビューは、安定性とAPIの両方の観点で本番環境向けではなく、一般提供リリースの前にコミュニティからのフィードバックを集めることを目的にしているリリースである。
-
Netflixによる推薦のためにワークフローオーケストレーションとスケジューリングを行うMesonフレームワーク
Netflixのゴールは視聴者が視聴する前に何を見たいかを予測することである。これを達成するためにNetflixは毎日多数の機械学習ワークフローを実行している。Mesonはビデオの推薦を補助するパーソナライズアルゴリズムの構築、学習、検証するこれら全ての機械学習パイプラインのライフサイクルを管理するワークフローオーケーストレーションとスケジュールのためのフレームワークである。
-
-
Neo4j 3.0がリリース,バイナリ通信プロトコルと標準ドライバを装備
GraphConnect Europe 2016でNeo Technologyは,Neo4j 3.0のリリースを発表した。サーバとクライアント間のデータ転送に使用される新しいバイナリプロトコル,データベース操作のための新たな標準ドライバセット,ストアドプロシージャのサポート,パフォーマンスとキャパシティの向上などが改良点だ。Neo Technologiesに詳しい話を聞いた。
-
Google、Cloud Machine LearningとTensorFlowのα版リリース
先月、GoogleがTensorFlowをインテグレートしたクラウド機械学習サービスのα版をリリースした。このサービスは、TensorFlowライブラリをGoogle Cloud Platform (GCP)上でスケールさせて動かしたいというニーズの高まりに応えるものだ。Googleは自らのビッグデータおよびアナリティクスプラットフォームと機械学習を密にイ��テグレートするという発表の中で、HadoopとSparkのマネージドサービスであるDataprocなどと統合して、TensorFlowの利用をスケールさせるための新機能について説明している。
-
Airbnbのネットプロモータースコアの使い方
ネットプロモータースコア(NPS)は、顧客のロイヤリティのメトリクスであり、顧客が企業のウェブサイトやサービスを再び使ってくれるかどうかの指標に使われる。AirbnbはNPSを拡張して使うことで顧客のロイヤリティを計測している。顧客が再び予約してくれるか、サービスを友人に薦めてくれるかについて明らかにするためのメトリクスとしてこの方法が効果的であると考えているのだ。
-
Yahoo!がApache Flink, Spark, Stormのベンチマークを実施
Yahoo!は,代表的なストリーム処理フレームワークであるApache Flink, Spark, Stormの3つを対象としたベンチマークを行った。
-
Riley Newman氏が語るAirbnbでのデータサイエンス
Airbnbでデータサイエンスの責任者を務めるRiley Newman氏は同社がどのようにしてデータサイエンスを定義し活用しているのかを記事にした。氏はデータは顧客の声であり、データサイエンスは解釈する活動であると説明している。また、データサイエンスをスケールするためのいくつかの重要な動きについても説明している。チームに直接、データサイエンティストを入れることやあらゆるビジネスプロセスのすべてにデータサイエンスを統合すること、高速で安定的なデータインフラを構築することなどだ。
-
TeradataがIoTデータのリアルタイム解析に対応した新ソフトウェアを発表
2015年のPartners User Group Conferenceで,Teradataは,IoTデータの大規模ストリームのリアルタイムな取り込み(Ingestion)と分析(analysis)という,2つの機能のソフトウェアを新たに発表した。さまざまなIoTデータストリームを複数同時かつリアルタイムに“listen”可能なTeradata Listenerと,大量のIoTデータストリームに対応したスケーラブルな分析機能を新たに提供するTeradata Aster Analytics on Hadoopである。
-
DMTK、Microsoftの機械学習ツールキット
GoogleによるTensorFlowのオープンソース化とほぼ時を同じくして、MicrosoftがGitHubにDMTK(Distributed Machine Learning Toolkit)をプッシュした。GoogleがリリースしたのはTensorFlowの単一マシンバージョンだが、MicrosoftのリリースしたDMTKはクラスタ上で動作する。
-
TensorFlow: Googleが自社の機械学習ツールをオープンソース化
TensorFlowは、GoogleのBrain Teamの研究者たちが作った機械学習ライブラリだ。このたびApache License 2.0のもとオープンソースとして公開された。TensorFlowの詳細については、ホワイトペーパー「TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems」に書かれている。ソースコードはGoogle Gitで公開されている。
-
HortonworksがデータフローベースのNiFiでIoATに対応
HortonworksはDataFlowプラットフォームの提供をひっそりと開始した。Apache NiFiをベースとして,IoATの処理ニーズ解決を目指す。
-
SpringXDがアーキテクチャと名称を変更し,Spring Cloud Data Flowに
Pivotalは先週のSpringOne2GXカンファレンスで,同社のビッグデータ製品であるSpring XDを完全に再設計し,名称をSpring Cloud Data Flowに改めることを発表した。新たな製品で重視されているのはオーケストレーションだ。