Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Belangrijke Componenten van Databricks | Databricks Fundamentals
Databricks Fundamentals: Een Beginnersgids

Belangrijke Componenten van Databricks

Veeg om het menu te tonen

Note
Definitie

Het Databricks-ecosysteem is opgebouwd uit drie kernpijlers: de Workspace (je kantoor), de Cluster (je motor) en het Notebook (je interactieve canvas). Inzicht in hoe deze drie samenwerken is de sleutel tot het beheersen van het platform.

Nu je de theorie achter de Lakehouse begrijpt, is het tijd om te kijken naar de daadwerkelijke tools die je dagelijks zult gebruiken. Als je een auto zou bouwen, heb je een garage nodig om in te werken, een motor om hem te laten rijden en een dashboard om hem te bedienen. In Databricks worden deze rollen vervuld door de Workspace, de Cluster en het Notebook. Laten we deze één voor één bekijken om te zien hoe ze samen een geïntegreerd data-ecosysteem vormen.

De Workspace: Je Collaboratieve Commandocentrum

Zie de Workspace als je digitale kantoorgebouw. Wanneer je inlogt op Databricks, kom je in deze omgeving terecht. Het is een gecentraliseerde, cloudgebaseerde interface waar al je middelen zich bevinden - je mappen, je bestanden, je bibliotheken en je beveiligingsinstellingen.

In de "oude dagen" werkten verschillende teams in verschillende "gebouwen." De data engineers zaten in het ene hulpmiddel, de data scientists in een ander, en de business analisten zaten vaak vast in een aparte rapportagesuite. De Databricks Workspace brengt iedereen onder één dak.

Binnen de Werkruimte vind je de volgende directe functionaliteiten:

  • De Zijbalk: de hoofd navigatie voor het schakelen tussen data science-, engineering- en SQL-omgevingen, evenals links naar de Catalogus (waar de data zich bevinden) en de Compute (waar je je clusters instelt);
  • Het Hoofdscherm: hier initialiseert Databricks elke functionaliteit waarmee je werkt - van het instellen van Clusters tot werken aan Notebooks en het doorlopen van de Catalogus, alles verschijnt hier;
  • De Zoekfunctie: beschikbaar bovenaan het scherm, een manier om direct je werk te vinden, net zoals op je laptop, maar toegankelijk voor je hele team;
  • Instellingen: hier kun je beschikbare opties voor je account bekijken, en bepalen beheerders wie welke data mag zien, zodat gevoelige informatie beschermd blijft terwijl samenwerking mogelijk blijft. Alle verschillende functionaliteiten van Databricks zijn toegankelijk via de Zijbalk. Dit geldt ook voor de meest basale functies die je in dit hoofdstuk zult zien.

De Cluster: Het Machinekamer

Als de Werkruimte het kantoor is, dan is de Cluster het zware materieel in de kelder dat al het werk doet. Omdat je werkt met "Big Data" is één enkele computer meestal niet voldoende om de informatie te verwerken.

Een Cluster is een verzameling virtuele "servers" in de cloud die samenwerken als één krachtige machine. Wanneer je een stuk code schrijft om een miljard rijen data te analyseren, stuurt de Werkruimte dat commando naar de Cluster. De Cluster verdeelt die taak vervolgens in kleinere stukken, verwerkt ze over meerdere "nodes" (individuele computers), en stuurt het resultaat terug naar jou.

Belangrijke zaken om te weten over Clusters:

  • Schaalbaarheid: je kunt een kleine cluster starten voor een snelle taak of een grote voor complexe machine learning;
  • Automatische Beëindiging: een van de beste functies van Databricks is dat je clusters kunt instellen om "in slaap te vallen" wanneer ze niet worden gebruikt. Dit bespaart veel kosten omdat je alleen betaalt voor de "engine" wanneer deze daadwerkelijk draait;
  • Single-Node vs. Multi-Node: voor beginners is het aan te raden een "Single-Node" cluster te gebruiken - één computer - om kosten te besparen tijdens het leren van de basis.

Het Notebook: Jouw Creatief Canvas

Tot slot is er het Notebook, waar je 90% van je tijd zult doorbrengen. Als je ooit Jupyter Notebooks of Google Colab hebt gebruikt, zal dit erg vertrouwd aanvoelen. Zo niet, beschouw het dan als een "Slim Document".

Een Notebook stelt je in staat om drie dingen op één plek te combineren:

  • Live Code: je kunt Python, SQL, R of Scala schrijven en uitvoeren;
  • Visualisaties: in plaats van alleen een saaie tabel met cijfers te zien, kun je direct grafieken en diagrammen genereren met één enkel commando;
  • Documentatie: je kunt "Markdown" (opgemaakte tekst) schrijven om uit te leggen wat je code doet. Dit maakt je werk leesbaar voor andere mensen, niet alleen voor machines.

De "magie" van Databricks-notebooks is hun flexibiliteit. Met zogenaamde "Magic Commands" kun je in de ene cel Python gebruiken om je data op te schonen, en in de volgende cel overschakelen naar SQL om deze te bevragen. Je hoeft niet één taal te kiezen; je gebruikt het beste gereedschap voor de specifieke taak.

Hoe Ze Samenwerken

Laten we een praktijksituatie bekijken om de samenwerking tussen deze drie te zien. Stel je voor dat je analist bent bij een wereldwijd reisbedrijf. Je opent de Workspace om de map "Monthly Sales" te vinden. Je maakt een nieuw Notebook aan in die map en geeft het een naam.

Je notebook is echter slechts een stuk papier totdat je het "koppelt" aan een Cluster. Zodra het is gekoppeld, schrijf je een SQL-query om de gemiddelde ticketprijs te berekenen. De Cluster ontvangt je query, start zijn engines, verwerkt miljoenen rijen aan verkoopdata uit de cloud en toont direct een mooie trendlijn in je Notebook. Als je klaar bent, deel je de link naar dat Notebook met je manager, en de Cluster schakelt automatisch twintig minuten later uit om kosten te besparen.

Dat is het Databricks-ecosysteem: een workspace voor samenwerking, een cluster voor rekenkracht en een notebook voor resultaten. In het volgende hoofdstuk zie je hoe dit alles werkt op verschillende cloudproviders zoals AWS, Azure en Google Cloud.

1. Welk onderdeel is verantwoordelijk voor het daadwerkelijke "zware werk" en de verwerking van je data?

2. Wat maakt Databricks Notebooks "collaboratief"?

3. Waarom is de "Auto-Termination"-functie op een cluster belangrijk?

question mark

Welk onderdeel is verantwoordelijk voor het daadwerkelijke "zware werk" en de verwerking van je data?

Selecteer het correcte antwoord

question mark

Wat maakt Databricks Notebooks "collaboratief"?

Selecteer het correcte antwoord

question mark

Waarom is de "Auto-Termination"-functie op een cluster belangrijk?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 3
some-alt