Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeのオープンソース化をを発表した。Delta LakeはすでにMcGraw Hill、McAffee、Upwork、Booz Allen Hamiltonなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。
Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。複数のパイプラインからデータを取り込むということは、エンジニアがすべてのデータソースにわたって、手動でデータの整合性をとる必要があることを意味する。Delta LakeはACIDトランザクションをデータレイクにもたらし、最も高いレベルの分離が適用され、シリアライザブルである。
Delta Lakeはタイムトラベルを提供し、ファイルのすべてのバージョンを取得することができる。これはGDPRやその他の監査関連の要求に非常に便利な機能である。ファイル上のメタデータは、データとまったく同じプロセスで格納され、それにより同じレベルの処理と同じ機能を実現する。
Delta Lakeではスキーマの強制することができる。データの型とフィールドの存在をチェックし、データを確実にクリーンに保つことができる。一方、スキーマの変更はDDLを必要としないが、自動的に適用できる。
Delta Lakeは既存のデータレイクの上にデプロイされ、バッチデータとストリーミングデータの両方と互換性があり、新しいデータソースとして既存のSparkジョブにプラグインできる。データは広く知られているApache Parquet形式で保存される。
Delta Lakeは、昨年発売されたDatabricksの最新のオープンソースプラットフォームであるMLFlowとも互換性がある。コードはGitHubで入手できる。