Wat Is Delta Lake?
Veeg om het menu te tonen
Delta Lake is een open-source opslaglaag die betrouwbaarheid toevoegt aan data lakes. Het biedt ACID-transacties, schaalbare metadata-afhandeling en verenigt streaming- en batchgegevensverwerking. In Databricks is Delta het standaardformaat voor alle tabellen.
Als traditionele bestanden het probleem zijn, is Delta Lake de oplossing. Wanneer je je diamonds-data opslaat als een Delta-tabel op workspace.workshop.diamonds, is het niet langer slechts een bestand op een schijf — het wordt een "intelligente" tabel.
Delta Lake werkt door de standaard databestanden (Parquet) te combineren met een verborgen Transaction Log.
1. ACID-transacties
Dit is de kern van Delta's betrouwbaarheid. ACID staat voor Atomicity, Consistency, Isolation en Durability.
In gewone taal: Je gegevensbewerkingen zijn "alles of niets." Als je 50.000 rijen in de diamonds-tabel bijwerkt en de cluster faalt bij rij 49.999, draait Delta de volledige wijziging terug. Je blijft nooit achter met een halfgeschreven, corrupte tabel.
2. Het transactielogboek (Het "Brein")
Elke keer dat je gegevens toevoegt, verwijdert of wijzigt in je diamonds-tabel, registreert Delta die actie in een centraal grootboek genaamd het Delta Log.
Wanneer je een query uitvoert, scant Databricks niet zomaar elk bestand in de map — het controleert eerst het Logboek om te zien welke bestanden geldig en relevant zijn. Dit maakt het doorzoeken van miljoenen rijen ongelooflijk snel.
3. Schemahandhaving en -evolutie
Delta Lake fungeert als poortwachter — zowel streng als flexibel wanneer nodig.
- Handhaving: als je probeert een diamond-record in te voegen waarbij "Price" een tekenreeks is in plaats van een getal, zal Delta de schrijfopdracht weigeren en een foutmelding geven. Dit houdt je gegevens schoon;
- Evolutie: als je daadwerkelijk een nieuwe kolom moet toevoegen (zoals "Store_Location"), staat Delta toe dat je het schema veilig aanpast zonder de volledige historische dataset te hoeven herschrijven.
4. Versiebeheer en Time Travel
Omdat elke wijziging wordt vastgelegd in het transactielogboek, onthoudt Delta Lake hoe je tabel er op elk moment in zijn geschiedenis uitzag.
Dit wordt Time Travel genoemd. Als je per ongeluk gegevens verwijdert uit workspace.workshop.diamonds, kun je Databricks eenvoudig vragen om "de tabel te bekijken zoals die er 10 minuten geleden uitzag" en de ontbrekende gegevens herstellen.
5. Open standaarden
Hoewel Databricks Delta Lake heeft ontwikkeld, is het een open-source formaat. Dit betekent dat je data niet "vastzit" aan een specifieke leverancier — je krijgt de prestaties van een hoogwaardige database met de flexibiliteit van open-source cloudopslag.
1. Wat doet het "transactielogboek" in Delta Lake?
2. Wat gebeurt er als een "Write"-bewerking naar een Delta-tabel halverwege faalt?
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.