Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Componenti Chiave di Databricks | Fondamenti di Databricks
Fondamenti di Databricks: Guida per Principianti

Componenti Chiave di Databricks

Scorri per mostrare il menu

Note
Definizione

L'ecosistema Databricks si basa su tre pilastri fondamentali: il Workspace (il tuo ufficio), il Cluster (il tuo motore) e il Notebook (la tua tela interattiva). Comprendere come questi tre elementi interagiscono è la chiave per padroneggiare la piattaforma.

Ora che hai compreso la teoria alla base del Lakehouse, è il momento di esaminare gli strumenti che utilizzerai ogni giorno. Se stessi costruendo un'auto, avresti bisogno di un garage in cui lavorare, di un motore per farla muovere e di un cruscotto per controllarla. In Databricks, questi ruoli sono ricoperti dal Workspace, dal Cluster e dal Notebook. Analizziamoli uno per uno per capire come formano un ecosistema dati unificato.

Il Workspace: Centro di comando collaborativo

Pensa al Workspace come al tuo edificio di uffici digitale. Quando accedi a Databricks, questo è l'ambiente in cui atterri. Si tratta di un'interfaccia centralizzata, basata su cloud, dove risiedono tutte le tue risorse: le tue cartelle, i tuoi file, le tue librerie e le impostazioni di sicurezza.

"Un tempo", i diversi team lavoravano in "edifici" separati. Gli ingegneri dei dati utilizzavano uno strumento, i data scientist un altro, e gli analisti aziendali spesso erano relegati a una suite di reportistica separata. Il Workspace di Databricks riunisce tutti sotto lo stesso tetto.

All'interno dello Workspace, troverai le seguenti funzionalità immediate:

  • La Sidebar: navigazione principale per passare tra ambienti di data science, engineering e SQL, oltre a collegamenti al Catalogo (dove risiedono i dati) e al Compute (dove si configurano i cluster);
  • Lo Schermo Principale: area in cui Databricks inizializza qualsiasi funzionalità utilizzata - dalla configurazione dei Cluster, al lavoro sui Notebook e alla consultazione del Catalogo, tutto appare qui;
  • La Funzione di Ricerca: disponibile nella parte superiore dello schermo, consente di accedere direttamente al proprio lavoro, proprio come sul proprio laptop, ma accessibile a tutto il team;
  • Impostazioni: sezione in cui è possibile consultare le opzioni disponibili per il proprio account e dove gli amministratori decidono chi può visualizzare quali dati, garantendo la protezione delle informazioni sensibili e favorendo la collaborazione. Tutte le varie funzionalità di Databricks sono accessibili tramite la Sidebar. Questo vale anche per quelle di base che verranno illustrate in questo capitolo.

Il Cluster: La Sala Macchine

Se lo Workspace è l'ufficio, il Cluster rappresenta i macchinari pesanti nel seminterrato che svolgono tutto il lavoro. Poiché si lavora con "Big Data", un singolo computer di solito non è sufficiente per elaborare tutte le informazioni.

Un Cluster è un insieme di "server" virtuali nel cloud che lavorano insieme come un'unica potente macchina. Quando si scrive un codice per analizzare miliardi di righe di dati, lo Workspace invia quel comando al Cluster. Il Cluster suddivide quindi il compito in parti più piccole, le elabora su diversi "nodi" (computer individuali) e restituisce il risultato.

Elementi chiave da sapere sui Cluster:

  • Scalabilità: è possibile avviare un cluster piccolo per attività rapide o uno molto grande per machine learning complesso;
  • Terminazione Automatica: una delle migliori funzionalità di Databricks è la possibilità di impostare i cluster affinché "vadano in sospensione" quando non sono utilizzati. Questo permette un notevole risparmio, poiché si paga il "motore" solo quando è effettivamente in funzione;
  • Single-Node vs. Multi-Node: per chi è alle prime armi, è consigliabile utilizzare un cluster "Single-Node" - un solo computer - per risparmiare mentre si apprendono le basi.

Il Notebook: La Tua Tela Creativa

Infine, c'è il Notebook, dove trascorrerai il 90% del tuo tempo. Se hai già utilizzato Jupyter Notebooks o Google Colab, ti sembrerà molto familiare. In caso contrario, pensalo come un "Documento Intelligente".

Un Notebook ti permette di combinare tre elementi in un unico posto:

  • Codice Live: puoi scrivere ed eseguire Python, SQL, R o Scala;
  • Visualizzazioni: invece di vedere solo una tabella di numeri, puoi generare grafici e diagrammi istantaneamente con un solo comando;
  • Documentazione: puoi scrivere "Markdown" (testo formattato) per spiegare cosa fa il tuo codice. Questo rende il tuo lavoro leggibile anche per altre persone, non solo per le macchine.

La "magia" dei notebook Databricks è la loro flessibilità. Utilizzando quelli che vengono chiamati "Magic Commands", puoi scrivere Python in una cella per pulire i dati e poi passare a SQL nella cella successiva per interrogarli. Non devi scegliere un solo linguaggio; puoi usare lo strumento migliore per ogni compito specifico.

Come Lavorano Insieme

Vediamo uno scenario reale per capire l'armonia tra questi tre componenti. Immagina di essere un analista in una compagnia di viaggi globale. Apri lo Workspace per trovare la cartella "Monthly Sales". Crei un nuovo Notebook all'interno di quella cartella e gli dai un nome.

Tuttavia, il tuo notebook è solo un foglio di carta finché non lo "colleghi" a un Cluster. Una volta collegato, scrivi una query SQL per calcolare il prezzo medio dei biglietti. Il Cluster riceve la tua query, avvia i suoi motori, elabora milioni di righe di dati di vendita dal cloud e mostra un bellissimo grafico delle tendenze direttamente nel tuo Notebook. Quando hai finito, condividi il link di quel Notebook con il tuo responsabile e il Cluster si spegne automaticamente dopo venti minuti per far risparmiare l'azienda.

Questo è l'ecosistema Databricks: uno workspace per la collaborazione, un cluster per la potenza e un notebook per i risultati. Nel prossimo capitolo vedremo come tutto questo si integra con diversi provider cloud come AWS, Azure e Google Cloud.

1. Quale componente è responsabile del vero "lavoro pesante" e dell'elaborazione dei tuoi dati?

2. Cosa rende i Databricks Notebooks "collaborativi"?

3. Perché la funzione "Auto-Termination" su un cluster è importante?

question mark

Quale componente è responsabile del vero "lavoro pesante" e dell'elaborazione dei tuoi dati?

Seleziona la risposta corretta

question mark

Cosa rende i Databricks Notebooks "collaborativi"?

Seleziona la risposta corretta

question mark

Perché la funzione "Auto-Termination" su un cluster è importante?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 1. Capitolo 3
some-alt