Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vad är ett kluster? | Konfigurera Arbetsytan
Databricks-Grunder: En Nybörjarguide

Vad är ett kluster?

Svep för att visa menyn

Note
Definition

I Databricks är Compute (eller ett Kluster) en uppsättning datorkapacitet och konfigurationer där du kör arbetsbelastningar för data engineering, data science och dataanalys. Tänk på det som "motorn" som driver dina anteckningsböcker och frågor.

Innan du klickar på "Skapa" behöver du förstå vad som händer bakom kulisserna. I föregående avsnitt kallade du Klustret för "Maskinrummet." Men vad betyder det egentligen när det gäller hårdvara?

När du använder en vanlig applikation som Excel på din bärbara dator är du begränsad av just den datorns kapacitet. Om du försöker öppna en fil med 100 miljoner rader kan Excel krascha eftersom din bärbara dators "hjärna" helt enkelt inte är tillräckligt stor. Databricks löser detta genom att använda Distribuerad Beräkning.

Restauranganalogin

För att förstå hur ett Kluster fungerar, föreställ dig ett hektiskt restaurangkök:

  • Klustret är hela kökspersonalen;
  • Noderna är de enskilda kockarna;
  • CPU (Central Processing Unit) är kockens hastighet. En kock med hög CPU kan hacka grönsaker mycket snabbt;
  • RAM (Minne) är kockens arbetsyta. Om en kock har en liten arbetsyta kan hen bara arbeta med en liten tallrik åt gången. Om hen har en stor arbetsyta (Hög RAM) kan hen lägga ut alla ingredienser för en komplex måltid på en gång.

I ett Databricks-kluster har du en Driver Node (Huvudkocken) som organiserar arbetet, och Worker Nodes (Linjens kockar) som utför själva databehandlingen.

Viktiga termer du kommer att se i användargränssnittet

När vi ska skapa vårt kluster kommer du att stöta på några tekniska termer:

  • Worker Type: här väljer du "storleken" på dina kockar. Behöver du en kock med mycket arbetsyta (Memory Optimized) eller en kock som är extremt snabb (Compute Optimized)?
  • Runtime Version: detta är "Execution Environment" för ditt kluster. Det innehåller versionen av Apache Spark och Python som din kod kommer att använda. Vanligtvis vill du välja den senaste "LTS" (Long Term Support) versionen.
  • Noder: detta är antalet kockar i ditt kök. För tunga "Big Data"-uppgifter kan du behöva 10 eller 20 arbetare. För denna kurs och ditt personliga lärande kommer vi ofta att använda Single Node-läge – vilket innebär att en enda kock gör allt arbete – för att hålla kostnaderna nere;
  • Automatisk avslutning: Klustret låter dig ange hur många minuter det ska gå innan klustret automatiskt avslutas. Detta är ett utmärkt sätt att spara kostnader – även ett overksamt kluster debiteras av både Databricks och din molnleverantör, så det är alltid en bra idé att ha detta som policy. I vår analogi motsvarar detta troligen de angivna arbetstiderna för kockarna – vid någon tidpunkt ska de kunna gå hem!
  • Taggar: våra kockar hanterar många ingredienser och recept och bör kunna hålla koll på användningen per maträtt eller per kund; detta är vad taggar gör i kluster, de låter dig ange etiketter som du senare kan använda för att söka efter användningstider och kostnader. En mycket användbar funktion för metadataanalys.

Varför skalning är viktigt

Det fina med molnet är att du inte behöver köpa dessa "kockar." Du hyr dem per sekund. Om du har ett massivt jobb som måste bli klart på 5 minuter kan du anlita 100 kockar (noder), slutföra arbetet och sedan "avskeda" dem direkt så att du slutar betala. Detta är kärnan i Databricks effektivitet.

1. I vår köksanalogi, vad representerar RAM (minne)?

2. Vad är rollen för "Driver Node" i ett Databricks-kluster?

3. Varför skulle en student välja ett "Single Node"-kluster för övning?

question mark

I vår köksanalogi, vad representerar RAM (minne)?

Vänligen välj det korrekta svaret

question mark

Vad är rollen för "Driver Node" i ett Databricks-kluster?

Vänligen välj det korrekta svaret

question mark

Varför skulle en student välja ett "Single Node"-kluster för övning?

Vänligen välj det korrekta svaret

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 2. Kapitel 2
some-alt