InfoQ ホームページ data-analysis に関するすべてのコンテンツ
-
BBCの分析プラットフォームの失敗に備えた設計
先週のInfoQ Liveで、BBCのプリンシパルシステムエンジニアであるBlanca Garcia-Gil氏が、データプラットフォームの進化する分析のセッションを行った。このセッション中、Garcia-Gil氏は、チームが「既知の未知」と「未知の未知」という2種類の障害にどのように備えて設計したかに焦点を当てた。
-
GoogleがDatabricksをクラウドプラットフォームに導入
最近、GoogleはDatabricksとのパートナーシップを発表した。フルマネージドのApache Spark製品とデータレイク機能をGoogle Cloudに導入するためである。この製品は、Google CloudでDatabricksとして利用できるようになる。
-
AmazonがAWS Glue 2.0の一般提供を発表
AWS Glueは、フルマネージドの抽出、変換、および読込み(ETL)サービスであり、分析用にデータを簡単に準備して読込むことができる。AWS Glueを使用すると、顧客はリソースをプロビジョニングまたは管理する必要がなく、サービスを実行したリソースのみの支払いを行う。
-
AmazonがAWS Glueに���しいストリーミングETL機能を導入
先頃、AmazonはAWS GlueがストリーミングETLをサポートすることを発表した。この新しい機能を使用すると、ストリーミングデータをオンザフライで準備し、数秒で分析できるようにする継続的取り込みパイプラインを簡単に設定できる。
-
Feature Storeで機械学習ライフサイクルを加速
Feature Storeは次世代のMLプラットフォームの中核であり、データサイエンティストがMLアプリケーションの提供を加速できるようにするものである。Mike Del Balso氏とGeoff Sims氏は最近、Spark AI Summit 2020 Conferenceで、フィーチャーストア主導のML開発について講演した。
-
Microsoftがデータウェアハウスおよび分析サービスのAzure Synapseを発表
年次開催されるIgniteカンファレンスで、Microsoftによる今年の発表のひとつとして、Azure Synapseという新しい分析サービスに関するものがあった。Azure SQL Data Warehouseの後継となるこのサービスは、企業規模のデータウェアハウスとビッグデータ解析をひとつの場所で実現するものだ。
-
AmazonがAWS Data Exchangeを導入し、オープンなデータ市場を提供
先日のブログ記事で、Amazonは、AWS Data Exchangeという名称の、データのパブリッシュ/サブスクライブを行う新たなマーケットサービスを公開した。このサービスは既存のAWS Marketplaceのアドオンで、80以上のデータプロバイダが提供する、1,000を越えるライセンスデータプロダクトを格納している。データは無償と有償で提供されるものがあり、その内容は金融サービスや医療、地理空間、気象、地図など多岐に渡る。
-
データの信頼性改善とビジネスアジリティを支援する”統計予測”
統計予測(statistical forecasting)は、デリバリ予想を改善し、従来の見積にあった問題を解決する上で、極めて効率的な方法だ。Piotr Leszczynski氏によるAgileByExample 2018でのケーススタディにおいて、氏は、自身のデータをより理解して信頼し、ビジネスアジリティの改善へと進む上での、統計計測の有用性について述べている。
-
AIとデータに関するロサンゼルスCTO円卓会議
先日ロサンゼルスで行われた"Leaders in Data CTO Roundtable"では、ビジネス向け人工知能(AI)フレームワークやプラットフォーム、今後5年間のデータ、データソフトウェアスタック、データ人材の獲得などが議論された。
-
Amazonが分析のためにサステナビリティデータセットを提供
Amazon Web Services Open Data (AWSOD) とAmazon Sustainability (AS)は、AWS Simple Storage Service (S3)でサステナビリティデータセットを利用できるようにするために協力して、最適な検索のためにデータセットを前処理することで一様に処理する重い処理を取り除く。持続可能なデータセットは一般に衛星、地質学的研究、気象レーダー、農業研究などからのものである。
-
NoSQL データベースのアジャイルなデータモデリング
Data Arachitecture Summit 2018 Conference にて Pascal Desmarets 氏が NoSQL データベースのためのアジャイルなモデリングとベストプラクティスについて語った。
-
ソフトウェア開発から機械学習へのチーム転換:QCon NYのGolestan Radwan
企業がビッグデータや機械学習の戦略をプロジェクトポートフォリオに追加する際、チームがソフトウェアエンジニアリングからデータエンジニアリングや機械学習へ移行することなど、いくつかの困難に直面する。Golestan "Sally" Radwan氏は最近QCon New York 2018で、伝統的なソフトウェアエンジニアリングチームの機械学習/AIジャーニーを先導した経験について講演した。
-
分散型メッセージングフレームワークApache Pulsar 2.0がスキーマレジストリとトピック圧縮をサポート
オープンソースの分散型pub-subメッセージングフレームワークApache Pulsarの最新バージョンによって、企業は、動いているデータを操作することによって「バッチでできることを超える」ことができる。 Streamlioは最近、Apache Pulsar 2.0ストリーミングメッセージングソリューションの利用できるようになったことを発表した。新しいバージョンでは、Pulsar関数、スキーマレジストリ、トピック圧縮がサポートされている。
-
並列実行とライブレコメンデーションを可能にするeBayのAcceleratorデータ処理フレームワーク
eBayのAcceleratorデータ処理フレームワークは、並列実行機能と、ソースコードと入力データ、結果の自動管理を可能にする。データ分析やアルゴリズム開発、さらにはライブレコメンデーションシステムでの利用が可能だ。
-
統合データAPIとGSQLを備えたPayPalのGimel分析プラットフォーム
PayPalのRomit Mehta氏とDeepak Chandramouli氏は、先日のQCon.aiカンファレンスで、Gimelデータ分析プラットフォームと、同プラットフォームを用いたデータアクセスのコモディティ化について講演した。Mehta、Chandramouli両氏に、同データプラットフォームのセキュリティ面のサポート、データのバージョニング、将来的なロードマップについて話を聞いた。