Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Huvudkomponenter i Databricks | Databricks-Grunder
Databricks-Grunder: En Nybörjarguide

Huvudkomponenter i Databricks

Svep för att visa menyn

Note
Definition

Databricks-ekosystemet bygger på tre kärnpelare: Workspace (ditt kontor), Cluster (din motor) och Notebook (din interaktiva arbetsyta). Att förstå hur dessa tre samverkar är nyckeln till att bemästra plattformen.

Nu när du förstår teorin bakom Lakehouse är det dags att titta på de faktiska verktyg du kommer att använda varje dag. Om du skulle bygga en bil skulle du behöva ett garage att arbeta i, en motor för att få den att röra sig och en instrumentpanel för att styra den. I Databricks fylls dessa roller av Workspace, Cluster och Notebook. Låt oss gå igenom dessa en och en för att se hur de bildar ett enhetligt dataekosystem.

Workspace: Ditt samarbetsbaserade kontrollcenter

Tänk på Workspace som din digitala kontorsbyggnad. När du loggar in i Databricks är det här du hamnar. Det är ett centraliserat, molnbaserat gränssnitt där alla dina tillgångar finns – dina mappar, filer, bibliotek och säkerhetsinställningar.

Förr i tiden arbetade olika team i olika "byggnader". Dataingenjörer använde ett verktyg, data scientists ett annat, och affärsanalytiker satt ofta fast i en separat rapporteringsmiljö. Databricks Workspace samlar alla under ett och samma tak.

Inom Arbetsytan hittar du följande omedelbara funktioner:

  • Sidopanelen: din huvudsakliga navigering för att växla mellan data science-, ingenjörs- och SQL-miljöer, samt länkar till Katalogen (där datan finns) och Beräkning (där du sätter upp dina kluster);
  • Huvudskärmen: här initierar Databricks den funktionalitet du arbetar med – från att sätta upp Kluster, till att arbeta i Anteckningsböcker och gå igenom Katalogen, allt visas här;
  • Sökfunktionen: tillgänglig högst upp på skärmen, ett sätt att nå ditt arbete direkt, precis som på din egen dator, men tillgängligt för hela ditt team;
  • Inställningar: här kan du bläddra bland tillgängliga alternativ för ditt konto, samt där administratörer bestämmer vem som kan se vilken data, vilket säkerställer att känslig information förblir skyddad samtidigt som samarbete möjliggörs. Alla Databricks olika funktioner är tillgängliga via Sidopanelen. Det gäller även de mest grundläggande funktionerna som du kommer att se i detta kapitel.

Klustret: Motorrummet

Om Arbetsytan är kontoret, är Klustret den tunga maskinparken i källaren som utför allt arbete. Eftersom du arbetar med "Big Data" räcker det oftast inte med en enda dator för att bearbeta informationen.

Ett Kluster är en samling virtuella "servrar" i molnet som arbetar tillsammans som en kraftfull maskin. När du skriver kod för att analysera en miljard rader data skickar Arbetsytan det kommandot till Klustret. Klustret delar då upp uppgiften i mindre delar, bearbetar dem över flera "noder" (enskilda datorer) och skickar resultatet tillbaka till dig.

Viktiga saker att känna till om Kluster:

  • Skalbarhet: du kan starta ett litet kluster för en snabb uppgift eller ett stort för komplex maskininlärning;
  • Automatisk avstängning: en av de bästa funktionerna i Databricks är att du kan ställa in kluster att "somna" när de inte används. Detta sparar mycket kostnader eftersom du bara betalar för "motorn" när den faktiskt körs;
  • Enkel nod vs. flera noder: för nybörjare bör du använda ett "Enkel-nod"-kluster – en dator – för att spara pengar medan du lär dig grunderna.

Anteckningsboken: Din kreativa arbetsyta

Slutligen har du Anteckningsboken, där du kommer att spendera 90 % av din tid. Om du har använt Jupyter Notebooks eller Google Colab tidigare kommer detta att kännas mycket bekant. Om inte, tänk på det som ett "smart dokument".

En Anteckningsbok låter dig kombinera tre saker på ett ställe:

  • Körbar kod: du kan skriva och köra Python, SQL, R eller Scala;
  • Visualiseringar: istället för att bara se en tråkig tabell med siffror kan du generera diagram och grafer direkt med ett enda kommando;
  • Dokumentation: du kan skriva "Markdown" (formaterad text) för att förklara vad din kod gör. Detta gör ditt arbete läsbart för andra människor, inte bara för maskiner.

"Magin" med Databricks-anteckningsböcker är deras flexibilitet. Med hjälp av så kallade "Magic Commands" kan du skriva Python i en cell för att rensa din data och sedan byta till SQL i nästa cell för att göra en fråga. Du behöver inte välja ett språk; du använder det bästa verktyget för den specifika uppgiften.

Hur de samverkar

Låt oss titta på ett verkligt scenario för att se samspelet mellan dessa tre. Föreställ dig att du är analytiker på ett globalt reseföretag. Du öppnar Workspace för att hitta mappen "Monthly Sales". Du skapar en ny Notebook i den mappen och ger den ett namn.

Men din anteckningsbok är bara ett papper tills du "kopplar" den till ett Cluster. När den är kopplad skriver du en SQL-fråga för att beräkna det genomsnittliga biljettpriset. Cluster tar emot din fråga, startar sina motorer, bearbetar miljontals rader försäljningsdata från molnet och visar ett snyggt trenddiagram direkt i din anteckningsbok. När du är klar delar du länken till anteckningsboken med din chef, och Cluster stängs automatiskt av tjugo minuter senare för att spara företagets pengar.

Det är Databricks-ekosystemet: en arbetsyta för samarbete, ett kluster för kraft och en anteckningsbok för resultat. I nästa kapitel ser vi hur allt detta fungerar över olika molnleverantörer som AWS, Azure och Google Cloud.

1. Vilken komponent ansvarar för det faktiska "tunga lyftet" och bearbetningen av din data?

2. Vad gör Databricks Notebooks "samarbetsvänliga"?

3. Varför är funktionen "Auto-Termination" på ett kluster viktig?

question mark

Vilken komponent ansvarar för det faktiska "tunga lyftet" och bearbetningen av din data?

Vänligen välj det korrekta svaret

question mark

Vad gör Databricks Notebooks "samarbetsvänliga"?

Vänligen välj det korrekta svaret

question mark

Varför är funktionen "Auto-Termination" på ett kluster viktig?

Vänligen välj det korrekta svaret

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 3

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 1. Kapitel 3
some-alt