Oppiskele Tiedostojen Hallinta Työtilassa

Databricks Perusteet: Aloittelijan Opas

Pyyhkäise näyttääksesi valikon

Määritelmä

Databricksissa on selkeä ero Workspace Files -tiedostojen (muistiinpanot ja koodi) ja Data Objects -kohteiden (taulut ja raakatiedostot) välillä. Catalog toimii nykyaikaisena porttina näiden dataobjektien hallintaan ja löytämiseen.

Yksi ensimmäisistä asioista, jotka tulee oppia, on että Databricksissa on "kaksi puolta". Toinen puoli on omaa työtä varten – skriptit ja muistiinpanot. Toinen puoli on varsinaiselle analysoitavalle datalle. Kun ymmärrät, missä kumpikin sijaitsee, säästyt monelta turhautumiselta koodia kirjoittaessasi.

Workspace Files: Koodin sijainti

Kun napsautat sivupalkin Workspace-välilehteä, näet tiedostojärjestelmän, joka on tarkoitettu logiikallesi.

Täällä luodaan kansioita, alakansioita ja muistiinpanoja.
Tänne voi myös tallentaa muita kuin muistiinpanotiedostoja, kuten pieniä Python-skriptejä tai vaatimustiedostoja.
Tärkeää: nämä eivät ole "data tables". Tänne ei tallenneta esimerkiksi 100GB CSV-tiedostoa. Tämä alue on tarkoitettu omaisuudellesi – koodille, joka ohjaa Databricksin toimintaa.

Katalogi: Missä tietosi sijaitsevat

Kun haluat tarkastella tietojasi, siirryt Catalog-välilehdelle. Aiemmin Databricks käytti laajasti DBFS:ää (Databricks File System). Vaikka viittauksia DBFS:ään saattaa edelleen esiintyä vanhemmassa dokumentaatiossa, sitä pidetään nyt vanhentuneena ratkaisuna.

Nykyään käytössä on Catalog (Unity Catalogin pohjalta). Tämä tarjoaa jäsennellyn, "SQL-tyylisen" tavan tarkastella tietoja:

Unity Catalogs: looginen ryhmittely (esim. production_data tai marketing_data) skeemoille;
Schemas (tai Databases): tapa järjestää tauluja katalogin sisällä sekä Volumes (katso alla), ML-mallit ja funktiot;
Tables: varsinaiset rivit ja sarakkeet, joita kyselyissä käytetään.

Volyymit: Raakatiedostojen käsittely

Joskus käytössäsi on dataa, joka ei vielä ole taulussa – kuten raakamuotoinen CSV- tai kuvatiedosto. Modernissa Databricks-käyttöliittymässä nämä tallennetaan volyymeihin. Voit ajatella volyymia sillanrakentajana vanhan "kansio"-ajattelun ja uuden, turvallisen "katalogi"-ajattelun välillä. Voit selata näitä volyymeja suoraan Katalogi-käyttöliittymässä nähdäksesi raakatiedostosi ennen kuin ne ladataan tauluihin.

Miksi tämä ero on tärkeä?

Kyse on ennen kaikkea turvallisuudesta ja suorituskyvystä. Kun koodi säilytetään työtilassa ja data katalogissa, Databricks mahdollistaa sen, että ylläpitäjät voivat antaa käyttäjälle oikeuden muokata muistikirjaa ilman, että hänelle tarvitsee antaa pääsyä taulun arkaluonteiseen dataan. Tämä "vastuiden erottelu" tekee Databricksista yritystason alustan.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 5

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 2. Luku 5

Tiedostojen Hallinta Työtilassa

Workspace Files: Koodin sijainti

Katalogi: Missä tietosi sijaitsevat

Volyymit: Raakatiedostojen käsittely

Miksi tämä ero on tärkeä?

1. Jos haluat luoda uuden kansion Python-muistikirjojesi järjestämistä varten, mitä sivupalkin välilehteä tulisi käyttää?

2. Mikä on nykyaikainen ja suositeltu tapa hallita ja löytää tietotauluja Databricksissä?

3. Mikä vanhentunut termi saattaa esiintyä vanhemmassa Databricks-dokumentaatiossa, mutta jonka Catalog ja Volumes ovat nyt korvanneet?