Summary  
This chapter covers DataFrame introspection methods—such as printSchema, display, describe, count, and columns—to inspect schema details, view sample data, compute basic statistics, count rows, and list headers.  

General domain of usage  
Data analysis

L'esplorazione di un DataFrame è il processo di ispezione della struttura, dei tipi di dati e del contenuto di un DataFrame. Comandi come `printSchema()` e `display()` sono gli strumenti principali utilizzati per verificare che i dati siano stati caricati correttamente prima di iniziare un'analisi.

Definizione

Una volta che hai caricato i tuoi dati in un DataFrame, non puoi semplicemente presumere che sia perfetto. Devi ispezionarlo per comprendere con cosa stai lavorando. In questo capitolo, utilizzerai due comandi Python essenziali per "guardare sotto il cofano" del nostro DataFrame `sales_records`. 

## Ispezione della struttura: printSchema()
La prima cosa che un professionista dei dati fa con un nuovo DataFrame è controllare lo Schema. Lo schema è il progetto dei tuoi dati: ti indica il nome di ogni colonna e il tipo di dato che contiene (Integer, String, Double, ecc.).

In una nuova cella, esegui:


L'output sarà un elenco in stile ad albero. Qui puoi verificare che "Total_Revenue" sia di tipo numerico (come `double`) e non semplicemente un testo. Se una colonna che ti aspettavi fosse un numero è indicata come `string`, sai che devi correggere i tipi di dato prima di eseguire calcoli.

## Ispezione del contenuto: display()

Mentre `printSchema()` mostra la struttura, `display()` mostra i dati reali. Come discusso nella Sezione 3, `display()` è una funzione potente e specifica di Databricks.

Esegui:

Questo comando visualizza le prime 10.000 righe del DataFrame in una griglia interattiva. Opportunità per individuare dati "sporchi", come valori mancanti (visualizzati come `null`) o formattazioni incoerenti nelle colonne "Region" o "Item_Type".


## Statistiche rapide: describe() e summary()
Per visualizzare le statistiche delle colonne senza scrivere query complesse, è possibile utilizzare il comando `describe()`:


Questo restituisce una tabella che mostra **Conteggio, Media, Deviazione Standard, Minimo e Massimo** per ogni colonna numerica. È il modo più rapido per individuare valori anomali — ad esempio, se il "Min" del prezzo è un numero negativo, sai che c'è un errore nei dati di origine.


## Conteggio delle righe: count()
Per conoscere la dimensione del tuo dataset, utilizza il metodo `count()`:


Restituisce un singolo intero che rappresenta il numero totale di righe. Utile per verificare che nessun dato sia stato perso durante il processo di caricamento.


## Visualizzazione dei nomi delle colonne
Infine, se serve solo un elenco rapido dei nomi delle colonne da copiare e incollare in un'altra funzione, utilizzare:


Questo restituisce una semplice lista Python di tutte le intestazioni, molto utile quando il tuo DataFrame ha decine di colonne e non ricordi l'esatta ortografia di una.

Quale comando dovresti usare per vedere il "progetto" del tuo DataFrame, inclusi tutti i nomi delle colonne e i tipi di dati?

Qual è lo scopo dell'esecuzione di display(df.describe())?

Un'introduzione pratica a Databricks, ai suoi concetti fondamentali e alla manipolazione dei dati tramite Python e SQL. Questo corso è pensato per principianti assoluti, con un focus su chiarezza, semplicità e applicazioni reali.

Definizione semplice di Databricks e introduzione dei termini chiave senza gergo tecnico.

Accesso dell'utente e avvio di un ambiente di calcolo.

Padronanza dell'ambiente di sviluppo principale utilizzando Python e SQL familiari.

Manipolazione pratica e operativa dei dati utilizzando DataFrame (la struttura dati principale).

Presentazione del principale elemento distintivo, Delta Lake, in modo semplice.

Esplorazione di Base dei DataFrame

Ispezione della struttura: printSchema()

Ispezione del contenuto: display()

Statistiche rapide: describe() e summary()

Conteggio delle righe: count()

Visualizzazione dei nomi delle colonne

1. Quale comando dovresti usare per vedere il "progetto" del tuo DataFrame, inclusi tutti i nomi delle colonne e i tipi di dati?

2. Qual è lo scopo dell'esecuzione di display(df.describe())?