Importazione di Dati di Esempio per la Pratica
Scorri per mostrare il menu
L'ingestione dei dati è il processo di importazione dei dati da fonti esterne nell'ambiente Databricks. Utilizzando l'interfaccia utente Data Ingestion, è possibile trasformare un file grezzo, come un CSV, in una tabella strutturata nel Catalog con pochi clic.
L'ambiente di lavoro è stato configurato e il Cluster è attivo. Ora serve qualcosa su cui lavorare. Nel mondo reale, i dati possono provenire da sensori in streaming o da grandi database cloud, ma la maggior parte dei progetti di dati inizia con un semplice file. In questo capitolo verrà utilizzata la moderna funzionalità di Data Ingestion per caricare un file CSV e trasformarlo in una tabella permanente nel Catalog.
Esistono diversi modi per importare dati in Databricks, alcuni più avanzati e complessi di altri (ad esempio, è possibile configurare endpoint personalizzati nel proprio provider cloud o collegarsi ad applicazioni di terze parti). In questo capitolo verrà illustrato il metodo più semplice: caricare dati dal proprio computer, per iniziare rapidamente.
Accesso all'ingestione dei dati
Esistono due modi rapidi per trovare questo strumento:
- Fare clic sul pulsante "Nuovo" nella parte superiore della barra laterale e selezionare "Carica file".
- In alternativa, andare alla scheda Catalogo e fare clic sul pulsante "Crea tabella" (spesso rappresentato da un segno più).
Passaggio 2: Caricamento del file
Una volta nell'interfaccia di caricamento, è possibile trascinare e rilasciare il file oppure cercarlo sul computer.
- Scenario: per questo esercizio viene utilizzato un file di esempio chiamato
diamonds.csv; - Caricamento: una volta caricato il file, Databricks lo memorizzerà temporaneamente in un'area di "staging" mentre si prepara a trasferirlo nel Catalogo.
Passaggio 3: Configurazione della tabella (Anteprima)
Qui avviene la "magia". Databricks mostrerà un'anteprima dei dati.
- Catalog and Schema: è necessario scegliere dove risiederà la tabella. Per ora, utilizzare il catalogo
workspacee lo schemadefault; - Table Name: assegnare un nome chiaro alla tabella, ad esempio
diamonds; - Data Types: osservare le colonne. Databricks rileva automaticamente se una colonna è una "String" (testo), un "Integer" (numero) o un "Timestamp" (data). Se il rilevamento non è corretto, è possibile modificare manualmente il tipo di dato direttamente nell'interfaccia.
Passaggio 4: Creazione della tabella
Fare clic su Create Table. Databricks avvierà ora un piccolo processo in background (utilizzando il tuo cluster) per leggere il file CSV e scriverlo come Delta Table ad alte prestazioni. Al termine, verrai indirizzato alla Table UI, dove potrai visualizzare lo schema, i dati di esempio e anche chi ha il permesso di visualizzarla.
Congratulazioni! Hai trasferito con successo i dati dal tuo computer personale al Lakehouse cloud-native.
1. Quando carichi un file CSV utilizzando l'interfaccia di Data Ingestion, in cosa viene trasformato quel file da Databricks?
2. Perché il passaggio "Preview" è importante durante il processo di ingestione dei dati?
3. Se desideri trovare la tua tabella appena creata in seguito, quale scheda della barra laterale dovresti visitare?
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione