Summary  
This chapter explains how to add transactional guarantees—atomic writes, schema enforcement, concurrency control—and historical versioning to tables by maintaining a transaction log.  

General domain of usage  
Data engineering

Traditionele datatabellen die als ruwe bestanden worden opgeslagen (zoals CSV of Parquet) zijn "onbeheerd". Ze missen de waarborgen die nodig zijn om gegevenscorruptie te voorkomen, gelijktijdige gebruikers te beheren of fouten ongedaan te maken, wat vaak leidt tot wat een "Data Swamp" wordt genoemd.


Definitie

## 1. Gebrek aan atomiciteit (gedeeltelijke schrijfbewerkingen)

Stel je voor dat je cluster halverwege is met het schrijven van 50.000 nieuwe diamond-records naar een bestand wanneer de stroom uitvalt of het netwerk faalt.

**Het resultaat:** Je eindigt met een "beschadigd" bestand. De helft van de gegevens is aanwezig, de andere helft ontbreekt, en je analyse is nu permanent onjuist. Traditionele bestanden hebben geen "alles of niets"-regel.

## 2. Geen schemahandhaving

In een traditionele omgeving voorkomt niets dat een gebruiker per ongeluk een diamond-record uploadt waarbij de "Price" een stuk tekst is (zoals "Expensive") in plaats van een getal.

**Het resultaat:** De volgende keer dat je een som of gemiddelde probeert uit te voeren, crasht je hele pijplijn omdat de "wiskunde" niet met tekst kan omgaan. Ruwe bestanden zijn "stille fouten" — ze accepteren slechte gegevens zonder te klagen.

## 3. Het "Twee Koks"-probleem (Gelijktijdigheid)

Wat gebeurt er als twee verschillende data engineers proberen de Diamonds-tabel op exact hetzelfde moment bij te werken?

**Het resultaat:** De wijzigingen van de één zullen waarschijnlijk die van de ander overschrijven, of het bestand wordt vergrendeld en onbruikbaar. Traditionele bestandssystemen zijn niet ontworpen voor gelijktijdig lezen en schrijven door meerdere personen op dezelfde data.

## 4. Geen "Ongedaan maken"-knop

Als je per ongeluk een opdracht uitvoert die elke "Premium" geslepen diamant uit je dataset verwijdert, is die data verdwenen. In een standaard bestandssysteem is er geen ingebouwde "geschiedenis" of "ongedaan maken"-knop om te zien hoe de tabel er vijf minuten geleden uitzag.

## De evolutie: Waarom we Delta Lake nodig hebben

Deze problemen zijn de reden waarom bedrijven overstappen van **Data Lakes** (gewoon mappen met bestanden) naar de **Lakehouse**.

Om deze problemen op te lossen, heeft Databricks **Delta Lake** ontwikkeld. Dit voegt een "transactielogboek" toe aan je bestanden — vergelijkbaar met een geavanceerde accountant die:

- Elke wijziging bijhoudt;
- Zorgt dat er geen foutieve data binnenkomt;
- Mogelijkheid biedt om terug te gaan naar eerdere versies als er een fout optreedt.

Wat is "gedeeltelijke schrijf" of "gegevenscorruptie" in een traditioneel datasysteem?

Waarom is "schemahandhaving" belangrijk voor een dataset zoals onze Diamonds-tabel?

Een praktische introductie tot Databricks, de kernconcepten en praktische datamanipulatie met Python en SQL. Deze cursus is ontworpen voor absolute beginners, met nadruk op duidelijkheid, eenvoud en toepassing in de praktijk.

Definieer Databricks op eenvoudige wijze en introduceer kernbegrippen zonder vakjargon.

De gebruiker aanmelden en een compute-omgeving starten.

Beheersing van de primaire ontwikkelomgeving met gebruik van vertrouwde Python en SQL.

Praktische, hands-on gegevensmanipulatie met behulp van DataFrames (de kerngegevensstructuur).

Introduceer eenvoudig het belangrijkste onderscheidende kenmerk, Delta Lake.

Het Probleem met Traditionele Datatabellen

1. Gebrek aan atomiciteit (gedeeltelijke schrijfbewerkingen)

2. Geen schemahandhaving

3. Het "Twee Koks"-probleem (Gelijktijdigheid)

4. Geen "Ongedaan maken"-knop

De evolutie: Waarom we Delta Lake nodig hebben

1. Wat is "gedeeltelijke schrijf" of "gegevenscorruptie" in een traditioneel datasysteem?

2. Waarom is "schemahandhaving" belangrijk voor een dataset zoals onze Diamonds-tabel?