Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Nøglekomponenter i Databricks | Databricks-Grundlæggende
Databricks Grundlæggende: En Begyndervejledning

Nøglekomponenter i Databricks

Stryg for at vise menuen

Note
Definition

Databricks-økosystemet er bygget på tre centrale søjler: Workspace (dit kontor), Cluster (din motor) og Notebook (dit interaktive lærred). Forståelsen af, hvordan disse tre elementer arbejder sammen, er nøglen til at mestre platformen.

Nu hvor du forstår teorien bag Lakehouse, er det tid til at se på de faktiske værktøjer, du vil bruge hver dag. Hvis du byggede en bil, ville du have brug for en garage at arbejde i, en motor til at få den til at køre, og et instrumentbræt til at styre den. I Databricks udfylder Workspace, Cluster og Notebook disse roller. Lad os gennemgå dem én for én for at se, hvordan de danner et samlet dataøkosystem.

Workspace: Dit samarbejdende kommandocenter

Tænk på Workspace som din digitale kontorbygning. Når du logger ind på Databricks, er det dette miljø, du lander i. Det er et centraliseret, cloud-baseret interface, hvor alle dine aktiver findes – dine mapper, dine filer, dine biblioteker og dine sikkerhedsindstillinger.

I "gamle dage" arbejdede forskellige teams i forskellige "bygninger." Dataingeniørerne var i ét værktøj, dataspecialisterne i et andet, og forretningsanalytikerne sad ofte fast i et separat rapporteringssystem. Databricks Workspace samler alle under ét tag.

Inden for Workspace finder du følgende umiddelbare funktionaliteter:

  • Sidebaren: hovednavigationen til at skifte mellem data science-, engineering- og SQL-miljøer samt links til Catalog (hvor dataene ligger) og Compute (hvor du opsætter dine clusters);
  • Hovedskærmen: her initialiserer Databricks den funktionalitet, du arbejder med – fra opsætning af Clusters til arbejde i Notebooks og gennemgang af Catalog, alt vises her;
  • Søgefunktionen: tilgængelig øverst på skærmen, en måde at finde dit arbejde direkte, ligesom på din egen computer, men tilgængelig for hele dit team;
  • Indstillinger: her kan du gennemse tilgængelige muligheder for din konto, samt hvor administratorer bestemmer, hvem der kan se hvilke data, hvilket sikrer, at følsomme oplysninger forbliver beskyttede, samtidig med at samarbejde muliggøres. Alle Databricks' forskellige funktionaliteter er tilgængelige via Sidebaren. Det gælder også for de helt grundlæggende, som du vil se i dette kapitel.

Clusteret: Maskinrummet

Hvis Workspace er kontoret, er Clusteret det tunge maskineri i kælderen, der udfører alt arbejdet. Fordi du arbejder med "Big Data", er en enkelt computer som regel ikke nok til at behandle informationen.

Et Cluster er en samling af virtuelle "servere" i skyen, der arbejder sammen som én kraftfuld maskine. Når du skriver kode for at analysere en milliard rækker data, sender Workspace den kommando til Clusteret. Clusteret opdeler derefter opgaven i mindre dele, behandler dem på tværs af flere "noder" (individuelle computere) og sender resultatet tilbage til dig.

Vigtige ting at vide om Clusters:

  • Skalerbarhed: du kan starte et lille cluster til en hurtig opgave eller et stort til kompleks machine learning;
  • Auto-terminering: en af de bedste funktioner i Databricks er, at du kan indstille clusters til at "gå i dvale", når de ikke bruges. Dette sparer mange omkostninger, da du kun betaler for "motoren", når den faktisk kører;
  • Single-Node vs. Multi-Node: for begyndere bør du bruge et "Single-Node" cluster – én computer – for at spare penge, mens du lærer det grundlæggende.

Notebooken: Din kreative lærred

Endelig har du Notebooken, hvor du vil tilbringe 90% af din tid. Hvis du tidligere har brugt Jupyter Notebooks eller Google Colab, vil dette føles meget velkendt. Hvis ikke, kan du tænke på det som et "Smart Dokument."

En Notebook giver dig mulighed for at kombinere tre ting ét sted:

  • Live kode: du kan skrive og køre Python, SQL, R eller Scala;
  • Visualiseringer: i stedet for blot at se en kedelig tabel med tal, kan du generere diagrammer og grafer øjeblikkeligt med en enkelt kommando;
  • Dokumentation: du kan skrive "Markdown" (formateret tekst) for at forklare, hvad din kode gør. Dette gør dit arbejde læsbart for andre mennesker, ikke kun for maskiner.

"Magien" ved Databricks-notebooks er deres fleksibilitet. Ved at bruge det, der kaldes "Magic Commands," kan du skrive Python i én celle for at rense dine data og derefter skifte til SQL i den næste celle for at forespørge på dem. Du behøver ikke vælge ét sprog; du bruger det bedste værktøj til den specifikke opgave.

Hvordan de arbejder sammen

Lad os se på et scenarie fra den virkelige verden for at forstå samspillet mellem disse tre. Forestil dig, at du er analytiker i et globalt rejseselskab. Du åbner Workspace for at finde mappen "Monthly Sales". Du opretter en ny Notebook i den mappe og giver den et navn.

Men din notebook er blot et stykke papir, indtil du "tilknytter" den til en Cluster. Når den er tilknyttet, skriver du en SQL-forespørgsel for at beregne den gennemsnitlige billetpris. Clusteren modtager din forespørgsel, starter sine motorer, behandler millioner af rækker salgsdata fra skyen og viser et flot trenddiagram direkte i din Notebook. Når du er færdig, deler du linket til den Notebook med din leder, og Clusteren lukker automatisk ned tyve minutter senere for at spare virksomheden penge.

Det er Databricks-økosystemet: et workspace til samarbejde, en cluster for kraft, og en notebook for resultater. I næste kapitel ser vi, hvordan dette fungerer på tværs af forskellige cloud-udbydere som AWS, Azure og Google Cloud.

1. Hvilken komponent er ansvarlig for det egentlige "tunge arbejde" og behandlingen af dine data?

2. Hvad gør Databricks Notebooks "samarbejdende"?

3. Hvorfor er funktionen "Auto-Termination" på en klynge vigtig?

question mark

Hvilken komponent er ansvarlig for det egentlige "tunge arbejde" og behandlingen af dine data?

Vælg det korrekte svar

question mark

Hvad gør Databricks Notebooks "samarbejdende"?

Vælg det korrekte svar

question mark

Hvorfor er funktionen "Auto-Termination" på en klynge vigtig?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 3

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 1. Kapitel 3
some-alt