Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad Er en Klynge? | Opsætning af Arbejdsområdet
Databricks Grundlæggende: En Begyndervejledning

Hvad Er en Klynge?

Stryg for at vise menuen

Note
Definition

I Databricks er Compute (eller en Cluster) et sæt af computerressourcer og konfigurationer, hvorpå du kører data engineering, data science og dataanalyse arbejdsbelastninger. Tænk på det som "motoren", der driver dine notebooks og forespørgsler.

Før du klikker på "Create", skal du forstå, hvad der sker bag kulisserne. I det forrige afsnit kaldte du Clusteren for "maskinrummet". Men hvad betyder det egentlig i forhold til hardware?

Når du bruger et standardprogram som Excel på din bærbare computer, er du begrænset af den enkelte computers ydeevne. Hvis du forsøger at åbne en fil med 100 millioner rækker, kan Excel gå ned, fordi din bærbars "hjerne" simpelthen ikke er stor nok. Databricks løser dette ved at bruge distribueret computing.

Restaurant-analogien

For at forstå hvordan en Cluster fungerer, kan du forestille dig et travlt restaurantkøkken:

  • Clusteren er hele køkkenpersonalet;
  • Noderne er de enkelte kokke;
  • CPU (Central Processing Unit) er kokkens hastighed. En kok med høj CPU kan hakke grøntsager meget hurtigt;
  • RAM (Memory) er kokkens bordplads. Hvis en kok har meget lidt bordplads, kan de kun arbejde på én lille ret ad gangen. Hvis de har masser af bordplads (høj RAM), kan de lægge alle ingredienserne til et komplekst måltid ud på én gang.

I en Databricks Cluster har du en Driver Node (chefkokken), der organiserer arbejdet, og Worker Nodes (linjekokkene), der udfører selve databehandlingen.

Nøglebegreber, du vil se i brugergrænsefladen

Når du opretter din klynge, vil du støde på nogle tekniske begreber:

  • Worker Type: her vælger du "størrelsen" på dine kokke. Har du brug for en kok med meget bordplads (Memory Optimized), eller en kok der er ekstremt hurtig (Compute Optimized)?
  • Runtime Version: dette er "Execution Environment" for din klynge. Den indeholder versionen af Apache Spark og Python, som din kode vil bruge. Normalt vil du blot vælge den nyeste "LTS" (Long Term Support) version.
  • Noder: antallet af kokke i dit køkken. Til tunge "Big Data"-opgaver kan du have brug for 10 eller 20 arbejdere. Til dette kursus og din personlige læring vil vi ofte bruge Single Node-tilstand – hvilket svarer til én kok, der udfører alt arbejdet – for at holde omkostningerne nede;
  • Auto-terminering: Klyngen giver dig mulighed for at angive det antal minutter, hvorefter klyngen automatisk afsluttes. Dette er en effektiv måde at spare omkostninger på – selv en inaktiv klynge faktureres både af Databricks og din cloud-udbyder, så det er altid en god idé at have dette som politik. I vores analogi svarer det til de fastsatte arbejdstider for kokkene – på et tidspunkt skal de kunne gå hjem!
  • Tags: vores kokke håndterer mange materialer og opskrifter og skal kunne holde styr på forbruget pr. ret eller pr. kunde; det er det, tags gør i klynger, de giver dig mulighed for at angive etiketter, som du senere kan bruge til at forespørge på brugstider og omkostninger. En meget nyttig funktion til metadataanalyse.

Hvorfor skalering er vigtigt

Fordelen ved skyen er, at du ikke behøver at købe disse "kokke." Du lejer dem pr. sekund. Hvis du har en stor opgave, der skal være færdig på 5 minutter, kan du hyre 100 kokke (noder), udføre arbejdet og derefter "afskedige" dem med det samme, så du stopper betalingen. Dette er kernen i Databricks' effektivitet.

1. I vores køkkenanalogi, hvad repræsenterer RAM (hukommelse)?

2. Hvad er rollen for "Driver Node" i et Databricks Cluster?

3. Hvorfor ville en studerende vælge en "Single Node"-klynge til øvelse?

question mark

I vores køkkenanalogi, hvad repræsenterer RAM (hukommelse)?

Vælg det korrekte svar

question mark

Hvad er rollen for "Driver Node" i et Databricks Cluster?

Vælg det korrekte svar

question mark

Hvorfor ville en studerende vælge en "Single Node"-klynge til øvelse?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 2

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 2
some-alt