Mikä on Delta Lake?
Pyyhkäise näyttääksesi valikon
Delta Lake on avoimen lähdekoodin tallennuskerros, joka tuo luotettavuutta datajärviin. Se tarjoaa ACID-transaktiot, skaalautuvan metadatan hallinnan ja yhdistää suoratoisto- ja erädatankäsittelyn. Databricksissä Delta on oletusmuoto kaikille taulukoille.
Jos perinteiset tiedostot ovat ongelma, Delta Lake on ratkaisu. Kun tallennat timanttidatasi Delta-taulukkona osoitteeseen workspace.workshop.diamonds, se ei ole enää pelkkä tiedosto levyllä — siitä tulee "älykäs" taulukko.
Delta Lake toimii yhdistämällä tavalliset datatiedostot (Parquet) piilotettuun Transaction Log -lokitiedostoon.
1. ACID-transaktiot
Tämä on Deltan luotettavuuden ydin. ACID tarkoittaa Atomicity, Consistency, Isolation ja Durability.
Yksinkertaisesti sanottuna: Dataoperaatiot ovat "kaikki tai ei mitään". Jos päivität 50 000 riviä diamonds-taulukossa ja klusteri epäonnistuu rivillä 49 999, Delta peruuttaa koko muutoksen. Et koskaan jää puoliksi kirjoitetun, vioittuneen taulukon kanssa.
2. Transaktioloki ("Aivot")
Joka kerta kun lisäät, poistat tai muokkaat tietoja diamonds-taulussa, Delta tallentaa tämän toiminnon keskitettyyn pääkirjaan nimeltä Delta Log.
Kun suoritat kyselyn, Databricks ei pelkästään skannaa jokaista tiedostoa kansiossa — se tarkistaa ensin Lokin nähdäkseen, mitkä tiedostot ovat kelvollisia ja olennaisia. Tämä tekee miljoonien rivien läpikäymisestä erittäin nopeaa.
3. Skeeman valvonta ja kehitys
Delta Lake toimii portinvartijana — sekä tiukkana että joustavana tarpeen mukaan.
- Valvonta: jos yrität lisätä diamond-tietueen, jossa "Price" on merkkijono numeron sijaan, Delta hylkää kirjoituksen ja antaa virheilmoituksen. Tämä pitää datasi siistinä;
- Kehitys: jos sinun täytyy lisätä uusi sarake (kuten "Store_Location"), Delta mahdollistaa skeeman turvallisen kehittämisen ilman, että koko historiallista tietojoukkoa tarvitsee kirjoittaa uudelleen.
4. Versiointi ja aikamatkailu
Koska jokainen muutos tallennetaan Transaktiolokiin, Delta Lake muistaa, miltä taulusi näytti jokaisessa historian vaiheessa.
Tätä kutsutaan aikamatkailuksi. Jos poistat vahingossa tietoja taulusta workspace.workshop.diamonds, voit yksinkertaisesti pyytää Databricksia "katsomaan taulua sellaisena kuin se oli 10 minuuttia sitten" ja palauttaa puuttuvat tiedot.
5. Avoimet standardit
Vaikka Databricks loi Delta Laken, se on avoimen lähdekoodin formaatti. Tämä tarkoittaa, että dataasi ei "lukita" tiettyyn toimittajaan — saat huippuluokan tietokannan suorituskyvyn sekä avoimen lähdekoodin pilvitallennuksen joustavuuden.
1. Mitä Delta Laken "Transaction Log" tekee?
2. Mitä tapahtuu, jos "Write"-operaatio Delta-tauluun epäonnistuu kesken kaiken?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme