Esplorazione di Base dei DataFrame
Scorri per mostrare il menu
L'esplorazione di un DataFrame è il processo di ispezione della struttura, dei tipi di dati e del contenuto di un DataFrame. Comandi come printSchema() e display() sono gli strumenti principali utilizzati per verificare che i dati siano stati caricati correttamente prima di iniziare un'analisi.
Una volta che hai caricato i tuoi dati in un DataFrame, non puoi semplicemente presumere che sia perfetto. Devi ispezionarlo per comprendere con cosa stai lavorando. In questo capitolo, utilizzerai due comandi Python essenziali per "guardare sotto il cofano" del nostro DataFrame sales_records.
Ispezione della struttura: printSchema()
La prima cosa che un professionista dei dati fa con un nuovo DataFrame è controllare lo Schema. Lo schema è il progetto dei tuoi dati: ti indica il nome di ogni colonna e il tipo di dato che contiene (Integer, String, Double, ecc.).
In una nuova cella, esegui:
df.printSchema()
L'output sarà un elenco in stile ad albero. Qui puoi verificare che "Total_Revenue" sia di tipo numerico (come double) e non semplicemente un testo. Se una colonna che ti aspettavi fosse un numero è indicata come string, sai che devi correggere i tipi di dato prima di eseguire calcoli.
Ispezione del contenuto: display()
Mentre printSchema() mostra la struttura, display() mostra i dati reali. Come discusso nella Sezione 3, display() è una funzione potente e specifica di Databricks.
Esegui:
display(df)
Questo comando visualizza le prime 10.000 righe del DataFrame in una griglia interattiva. Opportunità per individuare dati "sporchi", come valori mancanti (visualizzati come null) o formattazioni incoerenti nelle colonne "Region" o "Item_Type".
Statistiche rapide: describe() e summary()
Per visualizzare le statistiche delle colonne senza scrivere query complesse, è possibile utilizzare il comando describe():
display(df.describe())
Questo restituisce una tabella che mostra Conteggio, Media, Deviazione Standard, Minimo e Massimo per ogni colonna numerica. È il modo più rapido per individuare valori anomali — ad esempio, se il "Min" del prezzo è un numero negativo, sai che c'è un errore nei dati di origine.
Conteggio delle righe: count()
Per conoscere la dimensione del tuo dataset, utilizza il metodo count():
print(df.count())
Restituisce un singolo intero che rappresenta il numero totale di righe. Utile per verificare che nessun dato sia stato perso durante il processo di caricamento.
Visualizzazione dei nomi delle colonne
Infine, se serve solo un elenco rapido dei nomi delle colonne da copiare e incollare in un'altra funzione, utilizzare:
print(df.columns)
Questo restituisce una semplice lista Python di tutte le intestazioni, molto utile quando il tuo DataFrame ha decine di colonne e non ricordi l'esatta ortografia di una.
1. Quale comando dovresti usare per vedere il "progetto" del tuo DataFrame, inclusi tutti i nomi delle colonne e i tipi di dati?
2. Qual è lo scopo dell'esecuzione di display(df.describe())?
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione