InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
MicrosoftがApache Spark向けの高性能C#およびF#サポートをリリース
Microsoftは、Apache Spark用の.NETのリリースを発表し、ビッグデータ計算エンジンに新しい高性能のC#とF#のバインディングを追加した。
-
Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化
Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeのオープンソース化をを発表した。Delta LakeはすでにMcAffee、Upworkなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。
-
機微データを保護するための新しい機械学習ライブラリ、TensorFlow Privacyの紹介
最近のブログ記事で、TensorFlowはTensorFlow Privacyを発表した。これは、研究者や開発者が強力なプライバシーを持つ機械学習モデルを構築できるようにするオープンソースライブラリである。このライブラリによって、強力な数学的保証に基づいて、トレーニングプロセスでユーザデータが記憶されないよう保証される。
-
高価値ビッグデータのためのフレームワーク
Asha Saxenaは最近、Enterprise Data World 2019会議でビッグデータ分析イニシアチブが組織にもたらす価値について話した。 Saxenaは、組織の成熟度と社内のコンピテンシーに役立つビッグデータフレームワークを提案した。
-
Microsoft、Azure Data Box Diskの一般提供を発表
最近のブログ記事で、MicrosoftはAzure Data Box Diskの一般提供を発表した。これはオフラインでAzureにデータを転送する、SSDベースのソリューションだ。MicrosoftはAzure Data Box Blob Storageのパブリックプレビューも発表した。これにより、顧客はData Box上のBlob Storageにデータをコピーできるようになる。
-
業界におけるAI応用について、Christoph Windheuser氏とのQ&A
ハードウェア能力の増大と膨大なデータにより、パターン認識、自然言語処理、強化学習など既存の機械学習アプローチが実現可能になった。人工知能は開発プロセスに影響を与えており、バージョン管理、CI/CD、テストなどは複雑さを増している。
-
Google CloudがEU内のクラウドデータ移行用にTransfer Applianceベータ版を発表
Googleは、大容量データをGCP(Google Cloud Platform)に迅速かつ安全に移動可能な大容量サーバであるTransfer Applianceを発表した。EU(欧州連合)内でベータ版として提供される。データの転送はEU内のGCPのTransfer Applianceを使用して処理され、データがEUを離れることはない。
-
Amazon、Managed Streaming for Kafkaのパブリックプレビューを発表
AmazonはAWS re:Invent 2018で、顧客がApache Kafkaを用いてストリーミングデータ処理を行うアプリケーションを簡単に構築および実行できるようにする新しいフルマネージドサービスを発表した。この新しいサービスはAmazon Managed Streaming for Kafka、略してAmazon MSKと呼ばれ、現在パブリックベータとして提供されている。
-
Tim Berners-Lee氏の分散IDプラットフォーム - Solid
Solidは、WWWの考案者であるTim Berners-Lee氏の手による、新たな分散IDプラットフォームである。ユーザが自分自身のデータを所有し、よりよく管理するためのメカニズムを提供する。
-
Uberのビッグデータプラットフォームが100ペタバイト超の規模に至るまで
Uberのエンジニアリングチームは、同社のビッグデータプラットフォームが、リレーショナルデータベースを使用した旧来のETLジョブから、HadoopとSparkをベースとするものへと発展した状況に関する記事を書いた。スケーラブルな取り込みモデル、標準転送フォーマット、インクリメンタルアップデートのためのカスタムライブラリが、同社プラットフォームの主要なコンポーネントである。
-
Keystone - Netflixのリアルタイムストリーム処理プラットフォーム
Netflixは先日、自社の技術ブログで、同社のリアルタイムストリーム処理プラットフォームであるKeystoneについて、その設計思想と洞察を論じた記事を公開した。Keystoneは2015年12月から運用されている。Netflixの加入者数が過去3年間で6,500万件から13,000万件以上へと増えたのに伴って、Keynoteも年を追って成長してきた。本記事ではKeynoteプラットフォームの最新情報を取り上げる。
-
設計レベルでプライバシを実装するHyperledger Indy
ソーシャルメディアサイトやコンシューマ向けEメールサービスといった集中型IDプロバイダは、ユーザとって便利なものだ。しかしこのアプローチは、プライバシやセキュリティ上のリスクを発生させる。オープンソースのブロックチェーンプロジェクトであるHyerledger Indyは、このようなリスク解消のために‘プライバシ最優先’アプローチを採用し、現在の集中型IDプロバイダに存在する問題に対処する。
-
Redis 5.0は新しい「Streams」データタイプをリリース
Redisは最近、Redis 4のリリースから15カ月目に、その人気のデータベースのバージョン5を発表した。おそらく、このバージョンの最も重要な機能は、新しいデータ型Streamsのサポートである。ソートセット機能が改善され、Redisモジュールが拡張され、ClustersとTimers APIが導入された。LOLWUTとその他の改善点はこの記事でレビューされている。
-
NoSQL データベースのアジャイルなデータモデリング
Data Arachitecture Summit 2018 Conference にて Pascal Desmarets 氏が NoSQL データベースのためのアジャイルなモデリングとベストプラクティスについて語った。
-
カリフォルニア州が消費者プライバシ法を制定
カリフォルニア州は、カリフォルニア州消費者プライバシ法(California Consumer Privacy Act of 2018 / CCPA)を、2020年1月1日より施行する。この法律により、企業が収集、保管、売買、共有する消費者情報に対して、消費者にいくつかの権利が与えられる。この種の法律としては、米国内で初めてのものとなる。