Svep för att visa menyn

Definition

Traditionella datatabeller som lagras som råfiler (som CSV eller Parquet) är "oövervakade". De saknar de skyddsmekanismer som krävs för att förhindra datakorruption, hantera samtidiga användare eller ångra misstag, vilket ofta leder till det som kallas en "Data Swamp".

1. Avsaknad av atomitet (partiella skrivningar)

Föreställ dig att din kluster är halvvägs igenom att skriva 50 000 nya diamantposter till en fil när strömmen går eller nätverket slutar fungera.

Resultatet: Du får en "korrupt" fil. Hälften av datan finns där, hälften saknas, och din analys är nu permanent felaktig. Traditionella filer har ingen "allt eller inget"-regel.

2. Ingen schema-verifiering

I en traditionell miljö finns det inget som hindrar en användare från att av misstag ladda upp en diamantpost där "Price" är en text (som "Expensive") istället för ett tal.

Resultatet: Nästa gång du försöker köra en summa eller ett medelvärde kraschar hela din pipeline eftersom "matematiken" inte kan hantera text. Råfiler är "tysta fel" — de accepterar felaktig data utan att klaga.

3. Problemet med "två kockar" (samtidighet)

Vad händer om två olika dataingenjörer försöker uppdatera Diamonds-tabellen exakt samtidigt?

Resultatet: En persons ändringar kommer sannolikt att skriva över den andres, eller så blir filen låst och oanvändbar. Traditionella filsystem är inte utformade för att flera personer ska kunna läsa och skriva till samma data samtidigt.

4. Ingen "ångra"-knapp

Om du av misstag kör ett kommando som tar bort alla "Premium"-slipade diamanter från din datamängd är dessa data borta. I ett vanligt filsystem finns det ingen inbyggd "historik" eller "ångra"-knapp för att se hur tabellen såg ut för fem minuter sedan.

Utvecklingen: Varför vi behöver Delta Lake

Dessa problem är anledningen till att företag går bort från Data Lakes (bara mappar med filer) och mot Lakehouse.

För att lösa dessa problem skapade Databricks Delta Lake. Det lägger till en "transaktionslogg" till dina filer — fungerar som en sofistikerad revisor som:

Spårar varje enskild ändring;
Säkerställer att ingen felaktig data kommer in;
Gör det möjligt att "tidsresa" tillbaka till tidigare versioner om ett misstag sker.

1. Vad är "Partial Write" eller "Data Corruption" i ett traditionellt datasystem?

2. Varför är "Schema Enforcement" viktigt för en datamängd som vår Diamonds-tabell?

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 1

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Problemet med Traditionella Datatabeller