InfoQ ホームページ Data-Lake に関するすべてのコンテンツ
ニュース
RSSフィード-
Data Solutions Framework:AWS上でデータソリューションを構築するためのオープンソースプロジェクト
AWSはこの程、Data Solutions Framework (DSF)をリリースした。これは、AWS上でデータソリューションの作成を加速するために設計された、オープンソースのフレームワークである。AWS CDKを使用して構築されたこのフレームワークは、データソリューションを構築するためのビルディングブロックとして抽象化とパターンを公開しており、TypeScript(npm)とPython(PyPi)で利用できる。
-
B2Bデータ交換:AWS 上のマネージド電子データ交換 (EDI)
AWSは最近、企業がEDIベースのビジネス・トランザクションの変革を自動化および監視できるプラットフォーム、B2B Data Interchangeを発表した。このサービスは、取引先を管理し、EDIドキュメントをJSONやXMLフォーマットに変革するためのローコード・インターフェイスを提供する。
-
Netflix、MaestroとApache Icebergを使ったインクリメンタル処理ソリューションを構築
Netflixは、データ・プラットフォームにおけるインクリメンタル処理のための新しいソリューションを構築した。インクリメンタルアプローチは、完全なデータセットの処理を避けるため、コンピューティングリソースのコストと実行時間を大幅に削減する。同社は、Maestro workflow engineとApache Icebergを使用して、データの鮮度と精度を向上させ、マネージドバックフィル機能を提供する予定である。
-
Googleがプレビュー版で新しいクロスプラットフォームデータストレージエンジンのBigLakeを発表
直近のCloud Data Summitで、GoogleはBigLakeのプレビュー版を発表した。これは、新しいデータレイクストレージエンジンであり、これによって企業がデータウェアハウスとデータレイク内のデータを簡単に分析できるようになる。
-
AWSがプレビュー版としてHealthLakeとRedshift MLを発表
AWSは、12月のre:Invent 2020中に、Amazon HealthLakeサービスのプレビューリリース版とRedshift MLと呼ばれるAmazon Redshiftの機能を発表した。Amazon HealthLakeは、ヘルスケア、健康保険、製薬会社がNLP(Natural Language Processing)を利用してデータから価値を引き出すためのデータレイクサービスである。Redshift MLは、SageMakerへのゲートウェイをRedshiftユーザーに提供するサービスである。
-
-
Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化
Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeのオープンソース化をを発表した。Delta LakeはすでにMcAffee、Upworkなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。
-
Apache Rangerがトップレベルのプロジェクトに昇格
Apache Hadoopエコシステムのセキュリティ管理フレームワークであるApache Rangerがトップレベルに昇格した。Rangerは、Apache HBase、Hadoop(HDFSとYARN)、Apache Hive、Apache Kafka、Apache Solrなど、サポート対象のHadoopコンポーネントに適用されるセキュリティポリシーを一元的に定義および管理するためのコンポーネントである。