Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hva er Delta Lake? | Grunnleggende Databricks-Konsepter
Databricks Grunnleggende: En Nybegynnerguide

Hva er Delta Lake?

Sveip for å vise menyen

Note
Definisjon

Delta Lake er et åpen kildekode lagringslag som gir pålitelighet til datalakes. Det tilbyr ACID-transaksjoner, skalerbar metadatahåndtering og forener strømming og batch-databehandling. I Databricks er Delta standardformatet for alle tabeller.

Hvis tradisjonelle filer er problemet, er Delta Lake løsningen. Når du lagrer diamantdataene dine som en Delta-tabell på workspace.workshop.diamonds, er det ikke lenger bare en fil på en disk — det blir en "intelligent" tabell.

Delta Lake fungerer ved å kombinere standard datafiler (Parquet) med en skjult Transaction Log.

1. ACID-transaksjoner

Dette er kjernen i Deltas pålitelighet. ACID står for Atomicity, Consistency, Isolation og Durability.

Enkelt forklart: Dataoperasjonene dine er "alt eller ingenting." Hvis du oppdaterer 50 000 rader i diamonds-tabellen og klyngen feiler ved rad 49 999, ruller Delta tilbake hele endringen. Du vil aldri sitte igjen med en halvskrevet, korrupt tabell.

2. Transaksjonsloggen ("Hjernen")

Hver gang du legger til, sletter eller endrer data i diamonds-tabellen, registrerer Delta denne handlingen i en sentral hovedbok kalt Delta Log.

Når du kjører en spørring, skanner ikke Databricks bare hver fil i mappen — den sjekker først Loggen for å se hvilke filer som er gyldige og relevante. Dette gjør søk gjennom millioner av rader utrolig raskt.

3. Skjemahåndhevelse og -utvikling

Delta Lake fungerer som en portvokter — både streng og fleksibel når det trengs.

  • Håndhevelse: hvis du prøver å sette inn en diamond-post der "Price" er en tekststreng i stedet for et tall, vil Delta avvise innskrivingen og gi en feil. Dette holder dataene dine rene;
  • Utvikling: hvis du faktisk trenger å legge til en ny kolonne (som "Store_Location"), lar Delta deg utvikle skjemaet trygt uten å måtte skrive om hele det historiske datasettet.

4. Versjonering og tidsreise

Fordi hver endring registreres i transaksjonsloggen, husker Delta Lake hvordan tabellen din så ut på hvert tidspunkt i historikken.

Dette kalles tidsreise. Hvis du ved et uhell sletter data fra workspace.workshop.diamonds, kan du ganske enkelt be Databricks om å "se på tabellen slik den var for 10 minutter siden" og gjenopprette de manglende delene.

5. Åpne standarder

Selv om Databricks skapte Delta Lake, er det et åpen kildekode-format. Dette betyr at dataene dine ikke er "låst" til en bestemt leverandør — du får ytelsen til en avansert database med fleksibiliteten til åpen kildekode skylagring.

1. Hva gjør "Transaksjonsloggen" i Delta Lake?

2. Hva skjer hvis en "Write"-operasjon til en Delta-tabell feiler halvveis?

question mark

Hva gjør "Transaksjonsloggen" i Delta Lake?

Velg det helt riktige svaret

question mark

Hva skjer hvis en "Write"-operasjon til en Delta-tabell feiler halvveis?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 2

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 5. Kapittel 2
some-alt