Lære Oppretting av Din Første Databehandlingsressurs

Sveip for å vise menyen

Definisjon

Å opprette en compute-ressurs (klynge) innebærer å klargjøre virtuell maskinvare i skyen for å utføre databehandlingsoppgaver. For læringsformål bruker vi en Single Node-konfigurasjon for å balansere ytelse og kostnader.

Nå er det på tide å starte "motoren." I dette kapittelet får du en steg-for-steg-veiledning for å opprette din første klynge. Dette er ressursen som lar deg kjøre SQL- og Python-kode senere i kurset. Følg disse trinnene nøye for å sikre at miljøet ditt settes opp korrekt og kostnadseffektivt.

Merk

Databricks lar deg opprette mer spesialiserte klynger, som job compute, som er bedre egnet for arbeidsflyter. Selv om formålet med dette kapittelet er å gå gjennom det grunnleggende, og derfor vil du utforske opprettelsen av en all-purpose-klynge, gjelder alt også for opprettelse og håndtering av andre klyngekategorier.

Trinn 1: Tilgang til Compute-menyen

Klikk på Compute-ikonet i venstre sidemeny. Dette tar deg til oversiktssiden for compute. Øverst til høyre klikker du på den blå knappen merket Create Compute.

Trinn 2: Velge klystertype

Du vil se to hovedalternativer øverst: Multi Node og Single Node.

Velg Single Node. Hvorfor? Multi-node-klynger er for større til massive, bedriftskritiske data. For læring er en Single Node-klynge mye rimeligere (eller til og med gratis i noen utgaver) og gir mer enn nok ytelse for datasettene vi skal bruke.

Trinn 3: Navngivning og kjøretidsversjon

Navn: gi klyngen et tydelig navn, for eksempel Student_Cluster_1;
Databricks Runtime Version: denne nedtrekksmenyen bestemmer "motorens" versjon. Se etter den nyeste versjonen med LTS ved siden av. LTS står for "Long Term Support." Dette er den mest stabile versjonen og den de fleste selskaper bruker i virkelige prosjekter.

Trinn 4: Konfigurering av "maskinvare"

Under Node Type vil du se en liste over virtuelle maskiner i skyen (som Standard_DS3_v2 på Azure eller i3.xlarge på AWS).

For dette kurset er standardvalget vanligvis tilstrekkelig;
Sørg for at den har minst 15GB minne hvis du planlegger å gjøre mer avansert data science senere, men for grunnleggende SQL og Python er det ofte nok med det minste tilgjengelige alternativet.

Steg 5: Det viktigste steget – automatisk terminering

Se etter avkrysningsboksen merket "Avslutt etter ___ minutter uten aktivitet."

Sett denne til 20 minutter;
Som vi diskuterte i forrige kapittel, er dette din sikkerhetsmekanisme. Hvis du er ferdig med arbeidet og lukker laptopen uten å slå av klyngen, vil Databricks oppdage at ingen kode kjører og automatisk slå av "motoren" etter 20 minutter for å stoppe faktureringen.

Steg 6: Opprett og vent

Klikk på Opprett Compute. Du vil se en roterende sirkel ved siden av klyngenavnet ditt. Det tar vanligvis 3 til 5 minutter for skyleverandøren å "varme opp" serverne. Når sirkelen blir til et grønt hake-symbol eller en grønn "Kjører"-status, er motoren din klar til bruk!

1. Hva er riktig måte å få tilgang til menyen for å opprette en ny compute-ressurs (klynge) i Databricks?

2. Når du setter opp din første Databricks-klynge for dette kurset, hvorfor bør du velge en Single Node-klynge fremfor en Multi Node-klynge?

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 3

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 2. Kapittel 3