Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Nøkkelkomponenter i Databricks | Databricks Grunnleggende
Databricks Grunnleggende: En Nybegynnerguide

Nøkkelkomponenter i Databricks

Sveip for å vise menyen

Note
Definisjon

Databricks-økosystemet er bygget på tre kjernepilarer: Workspace (kontoret ditt), Cluster (motoren din) og Notebook (det interaktive lerretet ditt). Å forstå hvordan disse tre samhandler er nøkkelen til å mestre plattformen.

Nå som du forstår teorien bak Lakehouse, er det på tide å se på de faktiske verktøyene du vil bruke hver dag. Hvis du skulle bygge en bil, ville du trengt en garasje å jobbe i, en motor for å få den til å bevege seg, og et dashbord for å kontrollere den. I Databricks fylles disse rollene av Workspace, Cluster og Notebook. La oss se nærmere på hver av dem for å forstå hvordan de sammen utgjør et samlet dataøkosystem.

Workspace: Samarbeidende kommandosenter

Tenk på Workspace som din digitale kontorbygning. Når du logger inn i Databricks, er dette miljøet du kommer til. Det er et sentralisert, skybasert grensesnitt hvor alle ressursene dine finnes – mapper, filer, biblioteker og sikkerhetsinnstillinger.

I "gamle dager" jobbet ulike team i forskjellige "bygninger." Dataingeniørene brukte ett verktøy, dataforskerne et annet, og forretningsanalytikerne satt ofte fast i egne rapporteringsverktøy. Databricks Workspace samler alle under ett tak.

Innenfor Workspace finner du følgende umiddelbare funksjonaliteter:

  • Sidepanelet: hovednavigasjonen for å bytte mellom data science-, ingeniør- og SQL-miljøer, samt lenker til Catalog (der dataene ligger) og Compute (der du setter opp klyngene dine);
  • Hovedskjermen: her initialiserer Databricks funksjonaliteten du jobber med – fra å sette opp Clusters, til å arbeide i Notebooks og bla gjennom Catalog, alt vises her;
  • Søkefunksjonen: tilgjengelig øverst på skjermen, en måte å finne arbeidet ditt direkte på, akkurat som på din egen datamaskin, men tilgjengelig for hele teamet;
  • Innstillinger: her kan du bla gjennom tilgjengelige alternativer for kontoen din, samt hvor administratorer bestemmer hvem som kan se hvilke data, slik at sensitiv informasjon forblir beskyttet samtidig som samarbeid muliggjøres. Alle Databricks' ulike funksjoner er tilgjengelige via Sidepanelet. Dette gjelder også de mest grunnleggende funksjonene du vil se i dette kapittelet.

Klyngen: Maskinrommet

Hvis Workspace er kontoret, er Klyngen det tunge maskineriet i kjelleren som gjør alt arbeidet. Fordi du jobber med "Big Data", er som regel ikke én enkelt datamaskin nok til å behandle informasjonen.

En Klynge er en samling virtuelle "servere" i skyen som samarbeider som én kraftig maskin. Når du skriver kode for å analysere en milliard rader med data, sender Workspace denne kommandoen til Klyngen. Klyngen deler deretter oppgaven i mindre deler, prosesserer dem på tvers av flere "noder" (enkeltstående datamaskiner), og sender resultatet tilbake til deg.

Viktige ting å vite om Klynger:

  • Skalerbarhet: du kan starte en liten klynge for en rask oppgave eller en stor for avansert maskinlæring;
  • Automatisk avslutning: en av de beste funksjonene i Databricks er at du kan sette klynger til å "sove" når de ikke er i bruk. Dette gir store kostnadsbesparelser fordi du kun betaler for "motoren" når den faktisk kjører;
  • Single-Node vs. Multi-Node: for nybegynnere bør du bruke en "Single-Node" klynge – én datamaskin – for å spare penger mens du lærer det grunnleggende.

Notatboken: Din kreative arbeidsflate

Til slutt har du Notatboken, som er stedet du vil tilbringe 90 % av tiden din. Hvis du har brukt Jupyter Notebooks eller Google Colab før, vil dette føles veldig kjent. Hvis ikke, kan du tenke på det som et "smart dokument".

En Notatbok lar deg kombinere tre ting på ett sted:

  • Levende kode: du kan skrive og kjøre Python, SQL, R eller Scala;
  • Visualiseringer: i stedet for å bare se en kjedelig tabell med tall, kan du generere diagrammer og grafer umiddelbart med én enkelt kommando;
  • Dokumentasjon: du kan skrive "Markdown" (formatert tekst) for å forklare hva koden din gjør. Dette gjør arbeidet ditt lesbart for andre mennesker, ikke bare for maskiner.

"Magien" med Databricks-notatbøker er fleksibiliteten. Ved å bruke det som kalles "magiske kommandoer", kan du skrive Python i én celle for å rense dataene dine, og deretter bytte til SQL i neste celle for å gjøre spørringer. Du trenger ikke velge ett språk; du bruker det beste verktøyet for den aktuelle oppgaven.

Hvordan de fungerer sammen

La oss se på et scenario fra virkeligheten for å illustrere samspillet mellom disse tre. Tenk deg at du er analytiker i et globalt reiseselskap. Du åpner Workspace for å finne mappen "Monthly Sales". Du oppretter en ny Notatbok i den mappen og gir den et navn.

Men notatboken din er bare et stykke papir inntil du "kobler" den til en Cluster. Når den er koblet til, skriver du en SQL-spørring for å beregne gjennomsnittlig billettpris. Cluster mottar spørringen din, starter opp sine motorer, behandler millioner av rader med salgsdata fra skyen, og viser et flott trenddiagram direkte i Notatboken din. Når du er ferdig, deler du lenken til Notatboken med lederen din, og Cluster slår seg automatisk av etter tjue minutter for å spare selskapet for penger.

Dette er Databricks-økosystemet: et arbeidsområde for samarbeid, en cluster for kraft, og en notatbok for resultater. I neste kapittel ser vi hvordan dette fungerer på tvers av ulike skyleverandører som AWS, Azure og Google Cloud.

1. Hvilken komponent er ansvarlig for selve "tungregningen" og prosesseringen av dataene dine?

2. Hva gjør Databricks Notebooks "samarbeidsorienterte"?

3. Hvorfor er funksjonen "Auto-Termination" på en klynge viktig?

question mark

Hvilken komponent er ansvarlig for selve "tungregningen" og prosesseringen av dataene dine?

Velg det helt riktige svaret

question mark

Hva gjør Databricks Notebooks "samarbeidsorienterte"?

Velg det helt riktige svaret

question mark

Hvorfor er funksjonen "Auto-Termination" på en klynge viktig?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 1. Kapittel 3
some-alt