Visualizzazione e Rappresentazione dei Risultati
Scorri per mostrare il menu
La funzione display() è un comando integrato di Databricks utilizzato per visualizzare i dati in formato interattivo, tabellare o grafico. Consente agli utenti di esplorare i dataset e creare grafici direttamente all'interno di un notebook senza la necessità di librerie esterne.
In Databricks, eseguire semplicemente il nome di una variabile o una query mostrerà i dati grezzi. Tuttavia, per rendere questi dati leggibili e "pronti per la presentazione", utilizziamo il comando display(). Questo è il metodo principale per trasformare numeri grezzi in informazioni visive.
La potenza di display()
Quando si lavora con Python, si è abituati a utilizzare print(). Sebbene print() sia adatto per il testo, non è ideale per grandi set di dati. Utilizzando display(your_dataframe), Databricks visualizza i dati come una tabella interattiva.
È possibile scorrere tra migliaia di righe. È possibile cliccare sulle intestazioni delle colonne per ordinare i dati in ordine crescente o decrescente. È possibile utilizzare la barra di ricerca integrata nei risultati per trovare istantaneamente valori specifici:
- È possibile scorrere tra migliaia di righe;
- È possibile cliccare sulle intestazioni delle colonne per ordinare i dati in ordine crescente o decrescente;
- È possibile utilizzare la barra di ricerca integrata nei risultati per trovare istantaneamente valori specifici.
Creazione di grafici automatici
Dopo aver eseguito una cella utilizzando display() o aver eseguito una query SQL, viene visualizzata una tabella dei risultati. Subito sotto questa tabella, si trova un'icona "+". Facendo clic su questa icona è possibile selezionare "Visualizzazione".
- Si apre l'Editor di visualizzazione;
- È possibile scegliere tra diversi tipi di grafici: Barre, Linee, Area, Torta, Dispersione e altri;
- È sufficiente trascinare e rilasciare le colonne desiderate per l'asse X e l'asse Y. Databricks gestisce automaticamente l'aggregazione (come la somma o la media dei valori).
Personalizzazione delle visualizzazioni
L'Editor di Visualizzazione è progettato per la rapidità. Puoi:
- Modificare i colori: assegnare colori specifici a diverse serie di dati;
- Etichettare gli assi: aggiungere titoli personalizzati agli assi orizzontali e verticali;
- Raggruppare i dati: utilizzare il campo "Raggruppa per" per suddividere un singolo grafico a linee in più linee in base a una categoria, come "Regione" o "Tipo di prodotto."
Aggiunta di visualizzazioni al notebook
Una volta salvata la visualizzazione, questa appare come una scheda separata accanto alla tabella dei dati. È possibile avere più visualizzazioni per la stessa cella. Ad esempio, una scheda può mostrare i dati di vendita grezzi, la seconda può mostrare un grafico a barre delle vendite per regione e la terza può mostrare un grafico a torta della distribuzione dei prodotti. Questo mantiene il notebook organizzato e consente agli stakeholder di vedere la "storia" dietro i dati senza dover consultare il codice sottostante.
Profilazione dei dati
Oltre ai grafici, Databricks offre una scheda "Profilo dati" nell'area dei risultati. Facendo clic su questa scheda si ottiene un riepilogo statistico immediato dei dati, che mostra la distribuzione dei valori, il conteggio dei valori mancanti e gli intervalli min/max per ogni colonna. Questo è un passaggio essenziale per la pulizia dei dati prima di iniziare un'analisi più approfondita.
1. Qual è il principale vantaggio dell'utilizzo di display() invece di print() per un dataset?
2. Dove si deve cliccare per iniziare a creare un grafico dai risultati della query?
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione