InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

ログインして、InfoQのすべての体験をアンロックしましょう！お気に入りの著者やトピックの最新情報を入手し、コンテンツと交流し、限定リソースをダウンロードできます。

ログイン

または

アカウントをお持ちでない方

登録

InfoQ ホームページ Big Data に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

LinkedInがKafka運用開発を詳説 - デバッグ方法とベストプラクティス

LinkedInのJoel Koshy氏がKafkaの運用経験談として，運用時に遭遇した２つのインシデントの監視とそのデバッグについて，さらにはKafkaのインフラストラクチャの運用を計画し，今後同種の問題を見つけ出すための中心的な概念とセマンティクス，動作パターンについて解説する。

Dylan Raithel 翻訳者吉田英人
投稿日 2016年8月2日午前12時42分
Confluent Platform 3.0がKafka Streamsによるリアルタイムデータ処理をサポート

Apache Kafkaメッセージングフレームワークの支援企業であるConfluentが提供するConfluent Platform 3.0メッセージングシステムでは，リアルタイムデータ処理にKafka Streamsをサポートしている。同社は先週，同オープンソースのConfluentプラットフォームの最新版を一般提供開始すると発表した。

Srini Penchikala 翻訳者吉田英人
投稿日 2016年7月24日午後8時48分
GitHubのすべてのオープンソースプロジェクトがGoogle BigQueryで検索可能に

GitHub上の280万を超えるのオープンソースプロジェクトの全てのスナップショットがGoogleのBigQueryから問い合わせできる、とGoogle とGitHubが発表した。GitHub上のおよそ20億のソースファイルがSQLを使って検索できるようになる。

Sergio De Simone 翻訳者徳武聡
投稿日 2016年7月21日午後8時1分
LinkedInがオープンソースのKafka Monitorを詳細に解説

LinkedInは先頃，同社が実務使用するKafkaクラスタの監視や広範なテストの自動化に使用し，先日オープンソース公開したKafka Monitorサービスについての詳しい説明資料を公開した。同社の運用するKafkaクラスタは，メインのKafkaトランクのバグ検出を積極的に行なうことで，オープンソースコミュニティに対してソリューションを提供している。

Dylan Raithel 翻訳者吉田英人
投稿日 2016年7月21日午後7時32分
ClouderaがBroad Instituteとの提携を発表

ClouderaはMITとハーバードのBroad Instituteとの提携を発表するとともに，ゲノム解析ツールキットパイプラインに関する経験を公開した。

Dylan Raithel 翻訳者吉田英人
投稿日 2016年7月20日午後8時43分
Databricks による、SparkとTensorFlowを用いたディープラーニング

昨年の終わり頃にGoogleが同社の機械学習ライブラリであるTensorFlowをオープンソースするという発表を行い、InfoQが取材をして以来、データサイエンスコミュニティは各々のプロジェクトでTensorFlowを試す機会を得た。

Dylan Raithel 翻訳者川本史生
投稿日 2016年7月20日午後8時17分
Apache Spark 2.0テクニカルプレビュー

Databricksは、Apache Sparkの最初のリリースの2年後に、上流ブランチ2.0.0-previewを基にした、Apache Spark 2.0のテクニカルプレビューを発表した。このプレビューは、安定性とAPIの両方の観点で本番環境向けではなく、一般提供リリースの前にコミュニティからのフィードバックを集めることを目的にしているリリースである。

Alex Giamas 翻訳者さとうなおき
投稿日 2016年7月19日午前3時43分
Netflixによる推薦のためにワークフローオーケストレーションとスケジューリングを行うMesonフレームワーク

Netflixのゴールは視聴者が視聴する前に何を見たいかを予測することである。これを達成するためにNetflixは毎日多数の機械学習ワークフローを実行している。Mesonはビデオの推薦を補助するパーソナライズアルゴリズムの構築、学習、検証するこれら全ての機械学習パイプラインのライフサイクルを管理するワークフローオーケーストレーションとスケジュールのためのフレームワークである。

Srini Penchikala 翻訳者笠原王徳
投稿日 2016年7月18日午後8時40分
Mantisを使用したNetflixの運用データストリームとバッチ処理

Mantisを使用したNetflixの運用データストリームとバッチ処理

Dylan Raithel 翻訳者吉田英人
投稿日 2016年5月23日午前4時27分
Neo4j 3.0がリリース，バイナリ通信プロトコルと標準ドライバを装備

GraphConnect Europe 2016でNeo Technologyは，Neo4j 3.0のリリースを発表した。サーバとクライアント間のデータ転送に使用される新しいバイナリプロトコル，データベース操作のための新たな標準ドライバセット，ストアドプロシージャのサポート，パフォーマンスとキャパシティの向上などが改良点だ。Neo Technologiesに詳しい話を聞いた。

Alex Blewitt 翻訳者吉田英人
投稿日 2016年5月19日午前1時33分
Google、Cloud Machine LearningとTensorFlowのα版リリース

先月、GoogleがTensorFlowをインテグレートしたクラウド機械学習サービスのα版をリリースした。このサービスは、TensorFlowライブラリをGoogle Cloud Platform (GCP)上でスケールさせて動かしたいというニーズの高まりに応えるものだ。Googleは自らのビッグデータおよびアナリティクスプラットフォームと機械学習を密にインテグレートするという発表の中で、HadoopとSparkのマネージドサービスであるDataprocなどと統合して、TensorFlowの利用をスケールさせるための新機能について説明している。

Dylan Raithel 翻訳者笹井崇司
投稿日 2016年4月22日午前3時38分
Airbnbのネットプロモータースコアの使い方

ネットプロモータースコア(NPS)は、顧客のロイヤリティのメトリクスであり、顧客が企業のウェブサイトやサービスを再び使ってくれるかどうかの指標に使われる。AirbnbはNPSを拡張して使うことで顧客のロイヤリティを計測している。顧客が再び予約してくれるか、サービスを友人に薦めてくれるかについて明らかにするためのメトリクスとしてこの方法が効果的であると考えているのだ。

Srini Penchikala 翻訳者徳武聡
投稿日 2016年2月12日午前12時29分
Yahoo!がApache Flink, Spark, Stormのベンチマークを実施

Yahoo!は，代表的なストリーム処理フレームワークであるApache Flink, Spark, Stormの３つを対象としたベンチマークを行った。

Abel Avram 翻訳者吉田英人
投稿日 2016年2月2日午前12時32分
Riley Newman氏が語るAirbnbでのデータサイエンス

Airbnbでデータサイエンスの責任者を務めるRiley Newman氏は同社がどのようにしてデータサイエンスを定義し活用しているのかを記事にした。氏はデータは顧客の声であり、データサイエンスは解釈する活動であると説明している。また、データサイエンスをスケールするためのいくつかの重要な動きについても説明している。チームに直接、データサイエンティストを入れることやあらゆるビジネスプロセスのすべてにデータサイエンスを統合すること、高速で安定的なデータインフラを構築することなどだ。

Jérôme Serrano 翻訳者徳武聡
投稿日 2016年1月25日午後11時32分
TeradataがIoTデータのリアルタイム解析に対応した新ソフトウェアを発表

2015年のPartners User Group Conferenceで，Teradataは，IoTデータの大規模ストリームのリアルタイムな取り込み(Ingestion)と分析(analysis)という，２つの機能のソフトウェアを新たに発表した。さまざまなIoTデータストリームを複数同時かつリアルタイムに“listen”可能なTeradata Listenerと，大量のIoTデータストリームに対応したスケーラブルな分析機能を新たに提供するTeradata Aster Analytics on Hadoopである。

Kevin Farnham 翻訳者吉田英人
投稿日 2015年12月13日午後11時54分