Swipe um das Menü anzuzeigen

Definition

Traditionelle Datentabellen, die als Rohdateien (wie CSV oder Parquet) gespeichert werden, sind "unverwaltet". Ihnen fehlen die notwendigen Schutzmechanismen, um Datenkorruption zu verhindern, gleichzeitige Benutzer zu verwalten oder Fehler rückgängig zu machen. Dies führt häufig zu einem sogenannten "Data Swamp".

1. Fehlende Atomizität (Teilweise Schreibvorgänge)

Stellen Sie sich vor, Ihr Cluster ist gerade dabei, 50.000 neue Diamantdatensätze in eine Datei zu schreiben, als der Strom ausfällt oder das Netzwerk versagt.

Das Ergebnis: Sie erhalten eine "korrupte" Datei. Die Hälfte der Daten ist vorhanden, die andere Hälfte fehlt, und Ihre Analyse ist nun dauerhaft fehlerhaft. Traditionelle Dateien haben keine "Alles-oder-nichts"-Regel.

2. Keine Schema-Erzwingung

In einer traditionellen Umgebung hindert nichts einen Benutzer daran, versehentlich einen Diamantdatensatz hochzuladen, bei dem der "Price" ein Text (wie "Expensive") statt einer Zahl ist.

Das Ergebnis: Beim nächsten Versuch, eine Summe oder einen Durchschnitt zu berechnen, stürzt die gesamte Pipeline ab, weil die "Mathematik" mit dem Text nicht umgehen kann. Rohdateien sind "stille Fehler" — sie akzeptieren fehlerhafte Daten, ohne zu warnen.

3. Das „Zwei-Koch“-Problem (Nebenläufigkeit)

Was passiert, wenn zwei verschiedene Data Engineers versuchen, die Diamonds-Tabelle genau zur gleichen Sekunde zu aktualisieren?

Das Ergebnis: Die Änderungen einer Person überschreiben wahrscheinlich die der anderen, oder die Datei wird gesperrt und ist nicht mehr nutzbar. Traditionelle Dateisysteme sind nicht dafür ausgelegt, dass mehrere Personen gleichzeitig auf dieselben Daten zugreifen und diese bearbeiten.

4. Kein „Rückgängig“-Button

Wenn versehentlich ein Befehl ausgeführt wird, der alle Diamanten mit dem Schliff „Premium“ aus dem Datensatz löscht, sind diese Daten verloren. In einem herkömmlichen Dateisystem gibt es keinen integrierten „Verlauf“ oder „Rückgängig“-Button, um zu sehen, wie die Tabelle vor fünf Minuten aussah.

Die Weiterentwicklung: Warum wir Delta Lake brauchen

Diese Probleme sind der Grund, warum Unternehmen von Data Lakes (nur Ordner mit Dateien) zum Lakehouse wechseln.

Um diese Herausforderungen zu lösen, hat Databricks Delta Lake entwickelt. Es fügt Ihren Dateien ein „Transaktionsprotokoll“ hinzu – wie ein ausgeklügelter Buchhalter, der:

jede einzelne Änderung nachverfolgt;
sicherstellt, dass keine fehlerhaften Daten hineingelangen;
es ermöglicht, durch „Zeitreisen“ zu früheren Versionen zurückzukehren, falls ein Fehler passiert.

1. Was ist "teilweises Schreiben" oder "Datenkorruption" in einem traditionellen Datensystem?

2. Warum ist "Schema-Erzwingung" für einen Datensatz wie unsere Diamonds-Tabelle wichtig?

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Das Problem mit Traditionellen Datentabellen