Databricksin Keskeiset Osat
Pyyhkäise näyttääksesi valikon
Databricks-ekosysteemi perustuu kolmeen ydinkomponenttiin: Workspace (toimisto), Cluster (moottori) ja Notebook (interaktiivinen työpöytä). Näiden kolmen vuorovaikutuksen ymmärtäminen on avain alustan hallintaan.
Nyt kun ymmärrät Lakehouse-teorian, on aika tutustua niihin työkaluihin, joita käytät päivittäin. Jos rakentaisit autoa, tarvitsisit autotallin työskentelyyn, moottorin liikkumiseen ja kojelaudan ohjaamiseen. Databricksissä nämä roolit täyttävät Workspace, Cluster ja Notebook. Tarkastellaan näitä yksitellen ja nähdään, miten ne muodostavat yhtenäisen dataekosysteemin.
Workspace: Yhteistyön komentokeskus
Ajattele Workspacea digitaalisena toimistorakennuksenasi. Kun kirjaudut Databricksiin, tämä on ympäristö, johon saavut. Se on keskitetty, pilvipohjainen käyttöliittymä, jossa kaikki resurssisi sijaitsevat – kansiot, tiedostot, kirjastot ja tietoturva-asetukset.
"Ennen vanhaan" eri tiimit työskentelivät eri "rakennuksissa". Data engineerit olivat yhdessä työkalussa, data scientistit toisessa ja business analystit usein erillisessä raportointityökalussa. Databricks Workspace kokoaa kaikki saman katon alle.
Työtilassa löydät seuraavat välittömät toiminnot:
- Sivupalkki: pääasiallinen navigointisi, jonka avulla voit siirtyä data science-, engineering- ja SQL-ympäristöjen välillä sekä käyttää linkkejä Catalogiin (jossa data sijaitsee) ja Computeen (jossa klusterit määritellään);
- Päänäyttö: tässä Databricks käynnistää valitsemasi toiminnallisuuden – klustereiden määrittelystä Notebookien käyttöön ja Catalogin selaamiseen, kaikki tapahtuu tässä näkymässä;
- Hakutoiminto: näytön yläosassa sijaitseva toiminto, jonka avulla löydät työsi suoraan, aivan kuten omalla tietokoneellasi, mutta koko tiimisi käytettävissä;
- Asetukset: täällä voit selata tilisi käytettävissä olevia vaihtoehtoja, ja ylläpitäjät määrittävät, kuka näkee mitäkin dataa, varmistaen, että arkaluonteiset tiedot pysyvät suojattuina mutta yhteistyö on silti mahdollista. Kaikki Databricksin eri toiminnot ovat käytettävissä sivupalkin kautta. Tämä koskee myös kaikkein perustavimpia toimintoja, joihin tutustut tässä luvussa.
Klusteri: Moottorihuone
Jos työtila on toimisto, klusteri on kellarissa oleva raskas koneisto, joka tekee kaiken työn. Koska käsittelet "Big Dataa", yksi tietokone ei yleensä riitä tietojen käsittelyyn.
Klusteri on kokoelma virtuaalisia "palvelimia" pilvessä, jotka toimivat yhdessä yhtenä tehokkaana koneena. Kun kirjoitat koodin, joka analysoi miljardi riviä dataa, työtila lähettää komennon klusterille. Klusteri jakaa tehtävän pienempiin osiin, käsittelee ne useilla "solmuilla" (yksittäisillä tietokoneilla) ja palauttaa tuloksen sinulle.
Tärkeimmät asiat, jotka tulee tietää klustereista:
- Skaalautuvuus: voit käynnistää pienen klusterin nopeaa tehtävää varten tai suuren klusterin monimutkaista koneoppimista varten;
- Automaattinen sammutus: yksi Databricksin parhaista ominaisuuksista on mahdollisuus asettaa klusterit "nukkumaan" silloin, kun niitä ei käytetä. Tämä säästää huomattavasti kustannuksia, koska maksat "moottorista" vain silloin, kun se on käynnissä;
- Yksisolmuinen vs. monisolmuinen: aloittelijoille suositellaan "yksisolmuista" klusteria – yhtä tietokonetta – jotta opetteluvaiheessa säästetään kustannuksissa.
Notebook: Luova työskentelyalusta
Lopuksi on Notebook, jossa tulet viettämään 90 % ajastasi. Jos olet käyttänyt Jupyter Notebooksia tai Google Colabia, tämä tuntuu hyvin tutulta. Muussa tapauksessa voit ajatella sitä "älykkäänä asiakirjana".
Notebookissa voit yhdistää kolme asiaa samaan paikkaan:
- Live-koodi: voit kirjoittaa ja suorittaa Python-, SQL-, R- tai Scala-koodia;
- Visualisoinnit: tylsän taulukon sijaan voit luoda kaavioita ja graafeja yhdellä komennolla;
- Dokumentaatio: voit kirjoittaa "Markdownilla" (muotoiltu teksti) selityksiä siitä, mitä koodisi tekee. Tämä tekee työstäsi luettavaa myös muille ihmisille, ei vain koneille.
Databricks-notebookien "taika" on niiden joustavuus. "Magic Commands" -toimintojen avulla voit kirjoittaa yhdessä solussa Pythonia datan puhdistamiseen ja seuraavassa solussa käyttää SQL:ää tietojen kyselyyn. Sinun ei tarvitse valita vain yhtä kieltä; voit käyttää parasta työkalua kuhunkin tehtävään.
Yhteistyö käytännössä
Katsotaanpa esimerkkiä tosielämästä, jossa nämä kolme toimivat yhdessä. Kuvittele olevasi analyytikko kansainvälisessä matkailuyrityksessä. Avaat Workspacen ja etsit "Monthly Sales" -kansion. Luot uuden Notebookin kyseiseen kansioon ja annat sille nimen.
Notebook on kuitenkin vain paperiarkki, kunnes "liität" sen Clusteriin. Kun liitetty, kirjoitat SQL-kyselyn laskeaksesi keskimääräisen lippuhinnan. Cluster vastaanottaa kyselysi, käynnistää moottorinsa, käsittelee miljoonia rivejä myyntidataa pilvestä ja näyttää trendikaavion suoraan Notebookissa. Kun olet valmis, jaat Notebookin linkin esimiehellesi, ja Cluster sammuu automaattisesti kahdenkymmenen minuutin kuluttua säästääkseen yrityksen rahaa.
Tämä on Databricks-ekosysteemi: workspace yhteistyöhön, cluster laskentatehoon ja notebook tuloksiin. Seuraavassa luvussa näemme, miten tämä kaikki toimii eri pilvipalveluissa, kuten AWS, Azure ja Google Cloud.
1. Mikä komponentti vastaa varsinaisesta "raskaan työn" tekemisestä ja datan prosessoinnista?
2. Mikä tekee Databricks-muistikirjoista "yhteistyöhön soveltuvia"?
3. Miksi klusterin "Auto-Termination"-ominaisuus on tärkeä?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme