Hva er en klynge?
Sveip for å vise menyen
I Databricks er Compute (eller en Klynge) et sett med databehandlingsressurser og konfigurasjoner som brukes til å kjøre arbeidsbelastninger innen data engineering, data science og dataanalyse. Tenk på det som "motoren" som driver notatbøkene og spørringene dine.
Før du klikker på "Opprett", må du forstå hva som skjer i bakgrunnen. I forrige seksjon kalte du Klyngen for "Maskinrommet." Men hva betyr det egentlig når det gjelder maskinvare?
Når du bruker et vanlig program som Excel på din bærbare PC, er du begrenset av kraften til den ene datamaskinen. Hvis du prøver å åpne en fil med 100 millioner rader, kan det hende at Excel krasjer fordi "hjernen" til laptopen din rett og slett ikke er stor nok. Databricks løser dette ved å bruke Distribuert Databehandling.
Restaurant-analogien
For å forstå hvordan en Klynge fungerer, kan du se for deg et travelt restaurantkjøkken:
- Klyngen er hele kjøkkenpersonalet;
- Nodene er de enkelte kokkene;
- CPU (Central Processing Unit) er kokkens hastighet. En kokk med høy CPU kan hakke grønnsaker veldig raskt;
- RAM (Minne) er kokkens benkeplass. Hvis en kokk har en liten benk, kan de bare jobbe med én liten tallerken om gangen. Har de en stor benk (Høy RAM), kan de legge ut alle ingrediensene til et komplekst måltid samtidig.
I en Databricks-klynge har du en Driver Node (Hovedkokken) som organiserer arbeidet, og Worker Nodes (Linjekokker) som utfører selve databehandlingen.
Viktige begreper du vil se i brukergrensesnittet
Når du skal opprette en klynge, vil du se noen tekniske begreper:
- Worker Type: her velger du "størrelsen" på kokkene dine. Trenger du en kokk med mye benkeplass (Memory Optimized) eller en kokk som er ekstremt rask (Compute Optimized)?
- Runtime Version: dette er "Kjøremiljøet" til klyngen din. Det inneholder versjonen av Apache Spark og Python som koden din vil bruke. Vanligvis vil du bare velge den nyeste "LTS" (Long Term Support)-versjonen.
- Noder: antall kokker på kjøkkenet. For tunge "Big Data"-oppgaver kan det være behov for 10 eller 20 arbeidere. For dette kurset og personlig læring brukes ofte Single Node-modus – kun én kokk som gjør alt arbeidet – for å holde kostnadene nede;
- Auto-terminering: klyngen lar deg angi hvor mange minutter det skal gå før klyngen automatisk termineres. Dette er en god måte å spare kostnader på – selv en inaktiv klynge faktureres både av Databricks og din skyleverandør, så det er lurt å ha dette som en policy. I analogien tilsvarer dette arbeidstidens slutt for kokkene – på et tidspunkt bør de få gå hjem!
- Tagger: kokkene håndterer mange ingredienser og oppskrifter, og bør kunne holde oversikt over bruk per rett eller kunde; dette gjør tagger i klynger, de lar deg angi etiketter som senere kan brukes til å spore brukstid og kostnader. En svært nyttig funksjon for metadataanalyse.
Hvorfor skalering er viktig
Fordelen med skyen er at du ikke trenger å kjøpe disse "kokkene." Du leier dem per sekund. Hvis du har en stor jobb som må bli ferdig på 5 minutter, kan du leie 100 kokker (noder), gjøre ferdig arbeidet, og så "sparke" dem umiddelbart slik at du slutter å betale. Dette er kjernen i Databricks sin effektivitet.
1. I vår kjøkkenanalogi, hva representerer RAM (minne)?
2. Hva er rollen til "Driver Node" i en Databricks-klynge?
3. Hvorfor vil en student velge en "Single Node"-klynge for øving?
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår