Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Che cos'è un cluster? | Impostazione Dell'Ambiente Di Lavoro
Fondamenti di Databricks: Guida per Principianti

Che cos'è un cluster?

Scorri per mostrare il menu

Note
Definizione

In Databricks, Compute (o un Cluster) è un insieme di risorse di calcolo e configurazioni su cui vengono eseguiti carichi di lavoro di data engineering, data science e data analytics. Può essere considerato come il "motore" che alimenta i tuoi notebook e le tue query.

Prima di cliccare su "Crea", è importante comprendere cosa succede dietro le quinte. Nella sezione precedente, il Cluster è stato definito come la "Sala Macchine". Ma cosa significa realmente in termini di hardware?

Quando utilizzi un'applicazione standard come Excel sul tuo laptop, sei limitato dalla potenza di quel singolo computer. Se provi ad aprire un file con 100 milioni di righe, Excel potrebbe bloccarsi perché la "mente" del tuo laptop semplicemente non è abbastanza grande. Databricks risolve questo problema utilizzando il Calcolo Distribuito.

L'analogia del ristorante

Per comprendere come funziona un Cluster, immagina la cucina di un ristorante affollato:

  • Il Cluster è l'intero staff di cucina;
  • I Nodi sono i singoli chef;
  • CPU (Central Processing Unit) è la velocità dello chef. Uno chef con una CPU elevata può tagliare le verdure molto velocemente;
  • RAM (Memoria) è lo spazio sul banco dello chef. Se uno chef ha un banco molto piccolo, può lavorare solo su un piatto alla volta. Se dispone di un banco molto grande (RAM elevata), può disporre tutti gli ingredienti per un banchetto complesso contemporaneamente.

In un Cluster Databricks, è presente un Nodo Driver (il Capo Chef) che organizza il lavoro, e Nodi Worker (gli Chef di Linea) che eseguono l'elaborazione dei dati.

Termini chiave presenti nell'interfaccia utente

Quando si procede alla creazione del cluster, vengono visualizzati alcuni termini tecnici:

  • Worker Type: selezione della "dimensione" dei cuochi. È necessario un cuoco con molto spazio di lavoro (Memory Optimized) o uno estremamente veloce (Compute Optimized)?
  • Runtime Version: rappresenta l'"Ambiente di esecuzione" del cluster. Include la versione di Apache Spark e Python utilizzata dal codice. In genere, è consigliabile scegliere l'ultima versione "LTS" (Long Term Support).
  • Nodi: rappresentano il numero di chef nella tua cucina. Per attività "Big Data" complesse, potresti aver bisogno di 10 o 20 lavoratori. Per questo corso e per l'apprendimento personale, utilizzeremo spesso la modalità Nodo Singolo, ovvero un solo chef che svolge tutto il lavoro, per mantenere bassi i costi;
  • Terminazione automatica: il Cluster consente di specificare il tempo in minuti dopo il quale il Cluster si terminerà automaticamente. Questo è un ottimo modo per risparmiare sui costi: anche un Cluster inattivo viene fatturato sia da Databricks che dal tuo provider cloud, quindi è sempre consigliabile impostare questa politica. Nell'analogia, corrisponde probabilmente all'orario di fine giornata per gli chef: a un certo punto dovrebbero poter andare a casa!
  • Tag: i nostri chef gestiscono molti materiali e ricette e devono poter tenere traccia dell'utilizzo per piatto o per cliente; questo è ciò che fanno i tag nei Cluster, permettendo di specificare etichette tramite cui è possibile successivamente interrogare tempi di utilizzo e costi. Una funzionalità molto utile per l'analisi dei metadati.

Perché la scalabilità è importante

Il vantaggio del cloud è che non devi acquistare questi "cuochi". Li noleggi al secondo. Se hai un lavoro enorme che deve essere completato in 5 minuti, puoi assumere 100 cuochi (nodi), terminare il lavoro e poi "licenziarli" immediatamente così smetti di pagare. Questo è il cuore dell'efficienza di Databricks.

1. Nella nostra analogia della cucina, cosa rappresenta la RAM (Memoria)?

2. Qual è il ruolo del "Driver Node" in un cluster Databricks?

3. Perché uno studente dovrebbe scegliere un cluster "Single Node" per esercitarsi?

question mark

Nella nostra analogia della cucina, cosa rappresenta la RAM (Memoria)?

Seleziona la risposta corretta

question mark

Qual è il ruolo del "Driver Node" in un cluster Databricks?

Seleziona la risposta corretta

question mark

Perché uno studente dovrebbe scegliere un cluster "Single Node" per esercitarsi?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 2

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 2. Capitolo 2
some-alt