Veeg om het menu te tonen

Definitie

Het aanmaken van een compute resource (Cluster) betekent het beschikbaar stellen van virtuele hardware in de cloud om datataken uit te voeren. Voor leerdoeleinden gebruiken we een Single Node-configuratie om prestaties en kosten in balans te houden.

Het is tijd om de "motor" aan te zetten. In dit hoofdstuk doorloop je de exacte stappen om je eerste cluster aan te maken. Dit is de resource waarmee je de SQL- en Python-code kunt uitvoeren die je later in de cursus schrijft. Volg deze stappen zorgvuldig om ervoor te zorgen dat je omgeving correct en kostenefficiënt is ingericht.

Opmerking

Databricks biedt de mogelijkheid om meer gespecialiseerde clusters te maken, zoals de job compute, die beter geschikt is voor workflows. Hoewel het doel van dit hoofdstuk is om de basis te behandelen en je daarom de creatie van een all-purpose cluster verkent, geldt alles ook voor het aanmaken en beheren van andere cluster-categorieën.

Stap 1: Toegang tot het Compute-menu

Klik in de linkerzijbalk op het Compute-pictogram. Dit brengt je naar de overzichtspagina van compute. Klik rechtsboven op de blauwe knop met het label Create Compute.

Stap 2: Het clustertype kiezen

Bovenaan zie je twee hoofdopties: Multi Node en Single Node.

Selecteer Single Node. Waarom? Multi-node clusters zijn bedoeld voor grote tot zeer grote, enterprise-schaal data. Voor leerdoeleinden is een Single Node-cluster veel goedkoper (of zelfs gratis in sommige edities) en biedt voldoende capaciteit voor de datasets die we gaan gebruiken.

Stap 3: Naamgeving en Runtime

Naam: geef je cluster een duidelijke naam, zoals Student_Cluster_1;
Databricks Runtime-versie: deze dropdown bepaalt de versie van de "engine". Zoek naar de nieuwste versie met LTS ernaast. LTS staat voor "Long Term Support". Dit is de meest stabiele versie en wordt door de meeste bedrijven gebruikt voor hun projecten in de praktijk.

Stap 4: Configuratie van de "Hardware"

Onder Node Type zie je een lijst met cloud-virtuele machines (zoals Standard_DS3_v2 op Azure of i3.xlarge op AWS).

Voor deze cursus is de standaardselectie meestal voldoende;
Zorg dat er minimaal 15GB geheugen beschikbaar is als je later meer geavanceerde data science wilt doen, maar voor basis SQL en Python is de kleinste beschikbare optie vaak voldoende.

Stap 5: De belangrijkste stap - Automatische beëindiging

Zoek naar het selectievakje met het label "Beëindigen na ___ minuten inactiviteit."

Stel dit in op 20 minuten;
Zoals besproken in het vorige hoofdstuk, is dit jouw vangnet. Als je klaar bent met werken en je laptop sluit maar vergeet je cluster uit te schakelen, zal Databricks detecteren dat er geen code draait en automatisch de "engine" uitschakelen na 20 minuten om verdere kosten te voorkomen.

Stap 6: Aanmaken en wachten

Klik op Compute aanmaken. Je ziet een ronddraaiende gevulde cirkel naast de naam van je cluster. Het duurt meestal 3 tot 5 minuten voordat de cloudprovider de servers heeft "opgewarmd". Zodra de cirkel verandert in een groen vinkje of een groene "Running"-status, is je engine klaar voor gebruik!

1. Wat is de juiste manier om het menu te openen voor het aanmaken van een nieuwe compute resource (cluster) in Databricks?

2. Waarom zou je bij het opzetten van je eerste Databricks-cluster voor deze cursus kiezen voor een Single Node-cluster in plaats van een Multi Node-cluster?

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Uw Eerste Compute-Resource Aanmaken