Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Gestione dei File nell'Ambiente di Lavoro | Impostazione Dell'Ambiente Di Lavoro
Fondamenti di Databricks: Guida per Principianti

Gestione dei File nell'Ambiente di Lavoro

Scorri per mostrare il menu

Note
Definizione

In Databricks, esiste una chiara distinzione tra Workspace Files (i tuoi notebook e il tuo codice) e Data Objects (le tue tabelle e i file grezzi). Il Catalog è il gateway moderno utilizzato per gestire e scoprire questi oggetti dati.

Una delle prime cose da imparare è che Databricks ha "due lati della medaglia". Un lato è dedicato al tuo lavoro - i tuoi script e notebook. L'altro lato riguarda i dati reali che stai analizzando. Comprendere dove si trova ciascuno ti farà risparmiare molta frustrazione quando inizierai a scrivere codice.

Workspace Files: Dove risiede il tuo codice

Quando fai clic sulla scheda Workspace nella barra laterale, stai visualizzando un file system per la tua logica.

  • Qui puoi creare cartelle, sottocartelle e notebook.
  • Puoi anche archiviare file non notebook, come piccoli script Python o file di requisiti.
  • Importante: questi non sono "data tables". Non archiviare qui un file CSV da 100GB. Quest'area è destinata alla tua proprietà intellettuale: il codice che indica a Databricks cosa fare.

Il Catalogo: Dove risiedono i tuoi dati

Per visualizzare i tuoi dati, accedi alla scheda Catalogo. In passato, Databricks si basava principalmente su un sistema chiamato DBFS (Databricks File System). Anche se potresti ancora trovare riferimenti a DBFS nella documentazione più datata, oggi è considerato un approccio obsoleto.

Attualmente si utilizza il Catalogo (basato su Unity Catalog). Questo offre un metodo strutturato, simile a SQL, per visualizzare i dati:

  • Unity Catalogs: raggruppamenti logici (ad esempio, production_data o marketing_data) di schemi;
  • Schemas (o Databases): modalità di organizzazione delle tabelle all'interno di un catalogo, oltre a Volumes (vedi sotto), modelli ML e funzioni;
  • Tables: le effettive righe e colonne da interrogare.

Volumi: Gestione dei file grezzi

A volte si dispone di dati che non sono ancora una tabella, come un file CSV grezzo o un file immagine. Nella moderna interfaccia di Databricks, questi vengono archiviati nei Volumi. Si può pensare a un Volume come a un ponte tra il vecchio modo di pensare alle "cartelle" e il nuovo approccio sicuro basato sul "Catalogo". È possibile esplorare questi volumi direttamente nell'interfaccia Catalogo per visualizzare i file grezzi prima che vengano caricati nelle tabelle.

Perché è importante la distinzione?

Tutto si riduce a sicurezza e prestazioni. Mantenendo il codice nello Spazio di lavoro e i dati nel Catalogo, Databricks consente agli amministratori di concedere a un utente il permesso di modificare un notebook senza necessariamente dargli accesso ai dati sensibili all'interno di una tabella. Questa "separazione delle responsabilità" è ciò che rende Databricks una piattaforma di livello enterprise.

1. Se desideri creare una nuova cartella per organizzare i tuoi Notebook Python, quale scheda della barra laterale dovresti utilizzare?

2. Qual è il metodo moderno e raccomandato per gestire e scoprire le tabelle di dati in Databricks?

3. Quale termine legacy potresti trovare nella documentazione più vecchia di Databricks che ora viene sostituito da Catalogo e Volumi?

question mark

Se desideri creare una nuova cartella per organizzare i tuoi Notebook Python, quale scheda della barra laterale dovresti utilizzare?

Seleziona la risposta corretta

question mark

Qual è il metodo moderno e raccomandato per gestire e scoprire le tabelle di dati in Databricks?

Seleziona la risposta corretta

question mark

Quale termine legacy potresti trovare nella documentazione più vecchia di Databricks che ora viene sostituito da Catalogo e Volumi?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 5

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 2. Capitolo 5
some-alt