InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
Mathieu Ripert氏,Instacartのマシンラーニング最適化を語る
Instacartは食料品を1時間以内に届けるオンライン・デリバリサービスである。アイテムをWebサイトあるいはモバイルアプリで注文すると,Instacartの購入代行者グループが地元の店舗でそれを購入して,購入者に届ける仕組みだ。InfoQは同社のデータサイエンティストであるMathieu Ripert氏にインタビューして,よりよいカスタマエクスペリエンスを保証する上で,Instacartがマシンラーニングをどのうように活用しているのか聞いた。
-
Giltのディープラーニング応用
ディープラーニングはニューラルネットワークを起源として,マシンラーニングの中で急速に進化しているサブフィールドだ。最近のアルゴリズム的な進歩とGPUによる並列化の活用は,囲碁のようなゲームをマスタするだけでなく,ディープラーニングをベースとしたアルゴリズムによる実用的なアプリケーションをいくつも実現している。 ファッション業界はその対象分野のひとつだ。 Giltは実用的なアプリケーションとしてディープラーニングを利用している。
-
Apache Eagleがトップレベルプロジェクトに昇格
ビッグデータプラットフォーム上でのセキュリティおよびパフォーマンスに関する問題を特定する,オープンソースソリューションのApache Eagleが,2017年1月10日,Apacheのトップレベルプロジェクトに昇格した。eBayが2015年10月にオープンソースとしたEagleは,機密データへのアクセスや悪意のある活動を簡単に検出し,タイムリに対応する目的で開発されたソフトウェアだ。
-
Microsoftがドローンとロボットのためのシミュレータ、AirSimをリリース
MicrosoftがAirSimを開発してオープンソース化した。これは世界各地におけるドローンの飛行をシミュレートするのに使えるツールだ。シミュレータはUnreal Engineで作られており、Microsoftはまもなくロボットや他の種類の車両のサポートを追加する予定だ。
-
Apache HBase 1.3リリースで多数のパフォーマンス改善
Apache HBase 1.3.0は、2017年1月中旬にリリースされた。今回のリリースでは、日付ベース階層圧縮がサポートされ、ログ先行書き込み(WAL)や新しいRPCスケジューラなど複数箇所で改善があった。このリリースには、合計で約1,700件の解決済みのissueが含まれている。
-
MindMeldの対話型アプリケーション構築ガイド
対話型(会話型)AI企業のMindMeldが、対話型アプリケーションを作成するための課題と手順を説明した「The Conversational AI Playbook」を公開した
-
In-Memory技術を使用したAzure SQLデータベースのパフォーマンス改善
2016年後半に、MicrosoftはAzure SQL Database In-Memory技術の一般向け提供(GA)を発表した。In-Memory処理は、Azure Premiumデータベースサービスでのみ利用可能で、Hybrid Transactional and Analytical Processing (HTAP)のシナリオに対して、On-line Transaction Processing(OLTP)、Clustered Columnstore Indexes、Non-clustered Columnstore Indexesのパフォーマンスが向上する。
-
GoogleのBigQueryに新たなパブリックデータセットが追加
Stack Overflowは、そのデータセットをGoogleのBigQueryを通して利用可能となることを最近発表した。開発者は、標準のSQL文を使用して、投稿、投票、タグ、バッジなどのStack Overflowデータ全体を対象にクエリできる。本投稿では、GoogleのBigQueryプラットフォームを通して利用可能なデータをセットを探っていく。
-
Julien Nioche氏が語るStorm Crawler - Apache Stormをベースとするオープンソースのクローラパイプライン
DigitalPebbleのディレクタで,Apache NutchWebクローラプロジェクトのPMCメンバ兼コミッタであるJulien Nioche氏が,StormCrawlerについての講演を行なった。StormCrawlerはストリーミングフレームワークであるApache Stormをベースとした,分散Webクローラ開発のための再利用可能なコンポーネントのコレクションだ。InfoQはプロジェクトの中心的コントリビュータであるNioche氏にインタビューして,StormCrawlerに関する詳細と,同種のテクノロジとの比較について聞くことにした。
-
Facebookによるグラフデータ処理のためのApache GiraphとSpark GraphXの比較
Facebookチームは、既存のGiraphベースのグラフ処理システムと、人気のSparkフレームワークの一部である新しいGraphXとのパフォーマンス比較を先日公開した。彼らの結論はGraphXは現在、彼らのグラフ処理ワークロードをサポートするために十分なスケーラビリティやパフ��ーマンスを備えていないということだ。
-
Julien Le Dem氏に聞く - Apache Arrowが示すカラム指向データ処理の未来
Apache ArrowプロジェクトでPMCのリーダを務めるJulien Le Dem氏が,カラム指向データ処理の今後について,Data Eng Conf NYでプレゼンテーションを行なった。Apache Arrowはカラム型インメモリデータベースのオープンソース標準である。InfoQはParquetとの違いを確認すべく,氏にインタビューした。
-
Couchbase 4.6 Developer Previewリリース,Apache Spark 2.0およびKafka用のリアルタイムコネクタを追加
Couchbase 4.6 Developer Previewリリースは改善されたフルテキスト検索,グローバルに順序付けされたコンフリクト解決を備えたデータセンタ間レプリケーション,リアルタイム解析テクノロジ – Spark 2.0およびKafka – 用のコネクタなどを備える。
-
Spark Summit EUのハイライト - TensorFlow, 構造化ストリーミング,GPUハードウェアアクセラレーション
Apache SparkとディープラーニングライブラリTensorFlowとの統合,構造化ストリーミング(Structured Streaming)とGPUハードウェアアクセラレーションを使用したオンラインラーニング – この2つが,先週ブリュッセルで開催されたSpark Summit EU 2016のハイライトだ。
-
Apache Flinkを使用したZalandoのマイクロサービスおよびストリーム処理用アーキテクチャ
Javier Lopez氏とMihail Vieru氏はReactive Summit 2016 Conferenceで,クラウドベースのデータ統合と,ビジネスインテリジェンスのユースケースにおけるストリーミング処理で使用される分散プラットフォームについて講演した。
-
Confluentがマルチデータセンタレプリケーションを備えた企業向けKafkaを発表
Confluent Enterpriseの最新バージョンは,マルチデータセンタレプリケーション,自動データバランシング,クラウドマイグレーション機能をサポートする。Apache Kafkaベースのストリーミングプラットフォームを提供するConfluentは先週,ストリーミングデータパイプライン構築とストリーム処理アプリケーション開発を支援するConfluent Enterpriseの新機能を発表した。