Wat Is een Cluster?
Veeg om het menu te tonen
In Databricks is Compute (of een Cluster) een verzameling van computerbronnen en configuraties waarop data-engineering, datawetenschap en data-analyse workloads worden uitgevoerd. Zie het als de "motor" die je notebooks en queries aandrijft.
Voordat je op "Create" klikt, is het belangrijk te begrijpen wat er achter de schermen gebeurt. In de vorige sectie werd de Cluster de "Machinekamer" genoemd. Maar wat betekent dat eigenlijk qua hardware?
Wanneer je een standaardapplicatie zoals Excel op je laptop gebruikt, ben je beperkt tot de kracht van die ene computer. Als je probeert een bestand met 100 miljoen rijen te openen, kan Excel crashen omdat het "brein" van je laptop simpelweg niet groot genoeg is. Databricks lost dit op met Distributed Computing.
De Restaurantanalogie
Om te begrijpen hoe een Cluster werkt, stel je een drukke restaurantkeuken voor:
- De Cluster is het volledige keukenteam;
- De Nodes zijn de individuele chefs;
- CPU (Central Processing Unit) is de snelheid van de chef. Een chef met een hoge CPU kan heel snel groenten snijden;
- RAM (Memory) is de werkruimte van de chef. Als een chef een klein aanrecht heeft, kan hij slechts aan één klein bord tegelijk werken. Met een groot aanrecht (Hoge RAM) kan hij alle ingrediënten voor een uitgebreid diner tegelijk uitstallen.
In een Databricks Cluster heb je een Driver Node (de Hoofdchef) die het werk organiseert, en Worker Nodes (de Lijnchefs) die de daadwerkelijke dataverwerking uitvoeren.
Belangrijke termen in de gebruikersinterface
Wanneer we een cluster aanmaken, zie je een aantal technische termen:
- Worker Type: hier kies je het "formaat" van je chefs. Heb je een chef nodig met veel werkruimte (Memory Optimized) of een chef die extreem snel is (Compute Optimized)?
- Runtime Version: dit is de "Execution Environment" van je cluster. Het bevat de versie van Apache Spark en Python die je code zal gebruiken. Meestal kun je het beste de nieuwste "LTS" (Long Term Support) versie kiezen.
- Nodes: dit is het aantal koks in je keuken. Voor zware "Big Data"-taken heb je misschien 10 of 20 werknemers nodig. Voor deze cursus en je persoonlijke leerproces gebruiken we vaak de Single Node-modus – waarbij één kok al het werk doet – om de kosten laag te houden;
- Auto-termination: de Cluster stelt je in staat om het aantal minuten op te geven waarna de Cluster automatisch wordt beëindigd. Dit is een uitstekende manier om kosten te besparen – zelfs een niet-actieve Cluster wordt gefactureerd door zowel Databricks als je cloudprovider, dus het is altijd verstandig om dit als beleid in te stellen. In onze analogie zou dit waarschijnlijk de afgesproken eindtijd voor de koks zijn – op een gegeven moment moeten ze naar huis kunnen gaan!
- Tags: onze koks werken met veel materialen en recepten en moeten het gebruik per gerecht of per klant kunnen bijhouden; dit is wat tags doen in Clusters, ze stellen je in staat labels op te geven waarmee je later gebruikstijden en kosten kunt opvragen. Een zeer handige functie voor metadata-analyse.
Waarom Schalen Belangrijk Is
Het mooie van de cloud is dat je deze "chefs" niet hoeft te kopen. Je huurt ze per seconde. Als je een enorme taak hebt die binnen 5 minuten klaar moet zijn, kun je 100 chefs (nodes) inhuren, het werk afronden en ze vervolgens direct "ontslaan" zodat je stopt met betalen. Dit is de kern van de efficiëntie van Databricks.
1. Wat stelt RAM (Geheugen) voor in onze keukenanalogie?
2. Wat is de rol van de "Driver Node" in een Databricks Cluster?
3. Waarom zou een student kiezen voor een "Single Node"-cluster om te oefenen?
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.