Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on Delta Lake? | Keskeiset Databricks-Käsitteet
Databricks Perusteet: Aloittelijan Opas

Mikä on Delta Lake?

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Delta Lake on avoimen lähdekoodin tallennuskerros, joka tuo luotettavuutta datajärviin. Se tarjoaa ACID-transaktiot, skaalautuvan metadatan hallinnan ja yhdistää suoratoisto- ja erädatankäsittelyn. Databricksissä Delta on oletusmuoto kaikille taulukoille.

Jos perinteiset tiedostot ovat ongelma, Delta Lake on ratkaisu. Kun tallennat timanttidatasi Delta-taulukkona osoitteeseen workspace.workshop.diamonds, se ei ole enää pelkkä tiedosto levyllä — siitä tulee "älykäs" taulukko.

Delta Lake toimii yhdistämällä tavalliset datatiedostot (Parquet) piilotettuun Transaction Log -lokitiedostoon.

1. ACID-transaktiot

Tämä on Deltan luotettavuuden ydin. ACID tarkoittaa Atomicity, Consistency, Isolation ja Durability.

Yksinkertaisesti sanottuna: Dataoperaatiot ovat "kaikki tai ei mitään". Jos päivität 50 000 riviä diamonds-taulukossa ja klusteri epäonnistuu rivillä 49 999, Delta peruuttaa koko muutoksen. Et koskaan jää puoliksi kirjoitetun, vioittuneen taulukon kanssa.

2. Transaktioloki ("Aivot")

Joka kerta kun lisäät, poistat tai muokkaat tietoja diamonds-taulussa, Delta tallentaa tämän toiminnon keskitettyyn pääkirjaan nimeltä Delta Log.

Kun suoritat kyselyn, Databricks ei pelkästään skannaa jokaista tiedostoa kansiossa — se tarkistaa ensin Lokin nähdäkseen, mitkä tiedostot ovat kelvollisia ja olennaisia. Tämä tekee miljoonien rivien läpikäymisestä erittäin nopeaa.

3. Skeeman valvonta ja kehitys

Delta Lake toimii portinvartijana — sekä tiukkana että joustavana tarpeen mukaan.

  • Valvonta: jos yrität lisätä diamond-tietueen, jossa "Price" on merkkijono numeron sijaan, Delta hylkää kirjoituksen ja antaa virheilmoituksen. Tämä pitää datasi siistinä;
  • Kehitys: jos sinun täytyy lisätä uusi sarake (kuten "Store_Location"), Delta mahdollistaa skeeman turvallisen kehittämisen ilman, että koko historiallista tietojoukkoa tarvitsee kirjoittaa uudelleen.

4. Versiointi ja aikamatkailu

Koska jokainen muutos tallennetaan Transaktiolokiin, Delta Lake muistaa, miltä taulusi näytti jokaisessa historian vaiheessa.

Tätä kutsutaan aikamatkailuksi. Jos poistat vahingossa tietoja taulusta workspace.workshop.diamonds, voit yksinkertaisesti pyytää Databricksia "katsomaan taulua sellaisena kuin se oli 10 minuuttia sitten" ja palauttaa puuttuvat tiedot.

5. Avoimet standardit

Vaikka Databricks loi Delta Laken, se on avoimen lähdekoodin formaatti. Tämä tarkoittaa, että dataasi ei "lukita" tiettyyn toimittajaan — saat huippuluokan tietokannan suorituskyvyn sekä avoimen lähdekoodin pilvitallennuksen joustavuuden.

1. Mitä Delta Laken "Transaction Log" tekee?

2. Mitä tapahtuu, jos "Write"-operaatio Delta-tauluun epäonnistuu kesken kaiken?

question mark

Mitä Delta Laken "Transaction Log" tekee?

Valitse oikea vastaus

question mark

Mitä tapahtuu, jos "Write"-operaatio Delta-tauluun epäonnistuu kesken kaiken?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 5. Luku 2
some-alt