Tiedostojen Hallinta Työtilassa
Pyyhkäise näyttääksesi valikon
Databricksissa on selkeä ero Workspace Files -tiedostojen (muistiinpanot ja koodi) ja Data Objects -kohteiden (taulut ja raakatiedostot) välillä. Catalog toimii nykyaikaisena porttina näiden dataobjektien hallintaan ja löytämiseen.
Yksi ensimmäisistä asioista, jotka tulee oppia, on että Databricksissa on "kaksi puolta". Toinen puoli on omaa työtä varten – skriptit ja muistiinpanot. Toinen puoli on varsinaiselle analysoitavalle datalle. Kun ymmärrät, missä kumpikin sijaitsee, säästyt monelta turhautumiselta koodia kirjoittaessasi.
Workspace Files: Koodin sijainti
Kun napsautat sivupalkin Workspace-välilehteä, näet tiedostojärjestelmän, joka on tarkoitettu logiikallesi.
- Täällä luodaan kansioita, alakansioita ja muistiinpanoja.
- Tänne voi myös tallentaa muita kuin muistiinpanotiedostoja, kuten pieniä Python-skriptejä tai vaatimustiedostoja.
- Tärkeää: nämä eivät ole "data tables". Tänne ei tallenneta esimerkiksi 100GB CSV-tiedostoa. Tämä alue on tarkoitettu omaisuudellesi – koodille, joka ohjaa Databricksin toimintaa.
Katalogi: Missä tietosi sijaitsevat
Kun haluat tarkastella tietojasi, siirryt Catalog-välilehdelle. Aiemmin Databricks käytti laajasti DBFS:ää (Databricks File System). Vaikka viittauksia DBFS:ään saattaa edelleen esiintyä vanhemmassa dokumentaatiossa, sitä pidetään nyt vanhentuneena ratkaisuna.
Nykyään käytössä on Catalog (Unity Catalogin pohjalta). Tämä tarjoaa jäsennellyn, "SQL-tyylisen" tavan tarkastella tietoja:
- Unity Catalogs: looginen ryhmittely (esim. production_data tai marketing_data) skeemoille;
- Schemas (tai Databases): tapa järjestää tauluja katalogin sisällä sekä Volumes (katso alla), ML-mallit ja funktiot;
- Tables: varsinaiset rivit ja sarakkeet, joita kyselyissä käytetään.
Volyymit: Raakatiedostojen käsittely
Joskus käytössäsi on dataa, joka ei vielä ole taulussa – kuten raakamuotoinen CSV- tai kuvatiedosto. Modernissa Databricks-käyttöliittymässä nämä tallennetaan volyymeihin. Voit ajatella volyymia sillanrakentajana vanhan "kansio"-ajattelun ja uuden, turvallisen "katalogi"-ajattelun välillä. Voit selata näitä volyymeja suoraan Katalogi-käyttöliittymässä nähdäksesi raakatiedostosi ennen kuin ne ladataan tauluihin.
Miksi tämä ero on tärkeä?
Kyse on ennen kaikkea turvallisuudesta ja suorituskyvystä. Kun koodi säilytetään työtilassa ja data katalogissa, Databricks mahdollistaa sen, että ylläpitäjät voivat antaa käyttäjälle oikeuden muokata muistikirjaa ilman, että hänelle tarvitsee antaa pääsyä taulun arkaluonteiseen dataan. Tämä "vastuiden erottelu" tekee Databricksista yritystason alustan.
1. Jos haluat luoda uuden kansion Python-muistikirjojesi järjestämistä varten, mitä sivupalkin välilehteä tulisi käyttää?
2. Mikä on nykyaikainen ja suositeltu tapa hallita ja löytää tietotauluja Databricksissä?
3. Mikä vanhentunut termi saattaa esiintyä vanhemmassa Databricks-dokumentaatiossa, mutta jonka Catalog ja Volumes ovat nyt korvanneet?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme