Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Esplorazione di Base dei DataFrame | Lavorare con i Dati
Fondamenti di Databricks: Guida per Principianti

Esplorazione di Base dei DataFrame

Scorri per mostrare il menu

Note
Definizione

L'esplorazione di un DataFrame è il processo di ispezione della struttura, dei tipi di dati e del contenuto di un DataFrame. Comandi come printSchema() e display() sono gli strumenti principali utilizzati per verificare che i dati siano stati caricati correttamente prima di iniziare un'analisi.

Una volta che hai caricato i tuoi dati in un DataFrame, non puoi semplicemente presumere che sia perfetto. Devi ispezionarlo per comprendere con cosa stai lavorando. In questo capitolo, utilizzerai due comandi Python essenziali per "guardare sotto il cofano" del nostro DataFrame sales_records.

Ispezione della struttura: printSchema()

La prima cosa che un professionista dei dati fa con un nuovo DataFrame è controllare lo Schema. Lo schema è il progetto dei tuoi dati: ti indica il nome di ogni colonna e il tipo di dato che contiene (Integer, String, Double, ecc.).

In una nuova cella, esegui:

df.printSchema()

L'output sarà un elenco in stile ad albero. Qui puoi verificare che "Total_Revenue" sia di tipo numerico (come double) e non semplicemente un testo. Se una colonna che ti aspettavi fosse un numero è indicata come string, sai che devi correggere i tipi di dato prima di eseguire calcoli.

Ispezione del contenuto: display()

Mentre printSchema() mostra la struttura, display() mostra i dati reali. Come discusso nella Sezione 3, display() è una funzione potente e specifica di Databricks.

Esegui:

display(df)

Questo comando visualizza le prime 10.000 righe del DataFrame in una griglia interattiva. Opportunità per individuare dati "sporchi", come valori mancanti (visualizzati come null) o formattazioni incoerenti nelle colonne "Region" o "Item_Type".

Statistiche rapide: describe() e summary()

Per visualizzare le statistiche delle colonne senza scrivere query complesse, è possibile utilizzare il comando describe():

display(df.describe())

Questo restituisce una tabella che mostra Conteggio, Media, Deviazione Standard, Minimo e Massimo per ogni colonna numerica. È il modo più rapido per individuare valori anomali — ad esempio, se il "Min" del prezzo è un numero negativo, sai che c'è un errore nei dati di origine.

Conteggio delle righe: count()

Per conoscere la dimensione del tuo dataset, utilizza il metodo count():

print(df.count())

Restituisce un singolo intero che rappresenta il numero totale di righe. Utile per verificare che nessun dato sia stato perso durante il processo di caricamento.

Visualizzazione dei nomi delle colonne

Infine, se serve solo un elenco rapido dei nomi delle colonne da copiare e incollare in un'altra funzione, utilizzare:

print(df.columns)

Questo restituisce una semplice lista Python di tutte le intestazioni, molto utile quando il tuo DataFrame ha decine di colonne e non ricordi l'esatta ortografia di una.

1. Quale comando dovresti usare per vedere il "progetto" del tuo DataFrame, inclusi tutti i nomi delle colonne e i tipi di dati?

2. Qual è lo scopo dell'esecuzione di display(df.describe())?

question mark

Quale comando dovresti usare per vedere il "progetto" del tuo DataFrame, inclusi tutti i nomi delle colonne e i tipi di dati?

Seleziona la risposta corretta

question mark

Qual è lo scopo dell'esecuzione di display(df.describe())?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 4. Capitolo 3
some-alt