Data Lakes: Universalformat soll die Daten-Kompatibilität vereinfachen

Mit Delta Lake 3.0 führt Databricks UniForm ein. Das Universalformat erweitert den Datenzugriff um die Formate Apache Iceberg und Apache Hudi.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Data Lakes: Databricks bindet VS Code und dbt-Projekte nahtlos ein

(Bild: Andrey Armyagov/Shutterstock.com)

Lesezeit: 2 Min.

Das für seine Lakehouse-Architektur bekannte Unternehmen Databricks hat die Veröffentlichung von Delta Lake 3.0 (RC1) bekannt gegeben. Das Open-Source-Projekt für Data Lakes wird seit rund einem Jahr unter der Kontrolle der Linux Foundation weiterentwickelt. Zu den wichtigsten Neuerungen in Version 3.0 zählen ein auf höhere Daten-Kompatibilität ausgelegtes Universalformat (UniForm) sowie ein flexibleres Verfahren zum Clustern von Daten.

Die vom Delta-Lake-Entwicklungsteam in das neue Release eingebrachten Änderungen sollen Anwenderinnen und Anwendern vor allem zu einer einfacheren Integration und höherer Performance für die zentrale Datenhaltung und -nutzung verhelfen. In diesem Zusammenhang leistet das neue Universalformat, UniForm, einen Beitrag zu erweiterter Kompatibilität. Es erzeugt für die im Delta Lake gespeicherten Daten automatisch passende Metadaten für die Formate Apache Iceberg und Apache Hudi. Beim Lesezugriff auf die Daten lassen sich diese so behandeln, als seien sie in Iceberg oder Hudi gespeichert worden. Das Beschränken auf einzelne Datenformate oder manuelles Umwandeln sollen damit entfallen.

Laut der Ankündigung von Databricks verspricht zudem die neue Funktion Delta Liquid Clustering ein Ende der bisherigen Tabellenpartitionierung im Hive-Stil, mit seinem starren Datenlayout. Das flexiblere Clusterverfahren soll insbesondere bei stark wachsenden Datenbeständen höhere Lese- und Schreibleistung gewährleisten – und darüber hinaus auch zu niedrigeren Kosten beitragen.

Entwicklerinnen und Entwickler profitieren von stabilisierten APIs. Der aktualisierte Kernel stellt sicher, dass die bisher nach Updates oder Protokolländerungen notwendigen Anpassungen an den Konnektoren für Delta Lake künftig entfallen können. Das Delta-Lake-Entwicklungsteam will damit einerseits der zunehmenden Fragmentierung bei den Konnektoren entgegenwirken und zudem sicherstellen, dass Anwenderinnen und Anwender schneller in den Genuss neuer Funktionen im Data Lake kommen.

Delta Lake 3.0 liegt als Vorschauversion (Release Candidate 1) ab sofort auf GitHub parat. Weitergehende Informationen finden sich im GitHub-Repo des Projekts sowie auf der Delta.io-Website.

(map)