Summary  
This chapter demonstrates how to detect and quantify missing values in a pandas DataFrame using methods like .info() and .isna(), filter rows containing NaNs, and remove rows based on a missing-data threshold.  

General domain of usage  
Data preprocessing for machine learning

Solo un numero limitato di modelli di machine learning è in grado di gestire valori mancanti, quindi è necessario verificare che il dataset non presenti lacune. Se sono presenti valori mancanti, è possibile affrontarli in due modi:

* Rimuovere le righe che contengono valori mancanti;
* Riempire le celle vuote con valori sostitutivi, un processo noto come **imputazione**.


## Identificazione dei valori mancanti

Per ottenere informazioni generali sul dataset e verificare la presenza di valori mancanti, è possibile utilizzare il metodo `.info()` di un DataFrame.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.info())

Il dataset contiene 344 record, ma le colonne `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` e `'sex'` presentano ciascuna meno di 344 valori non nulli, indicando la presenza di dati mancanti.


Null è un altro termine per valori mancanti.  

Nota

Per identificare il **numero di valori mancanti in ciascuna colonna**, applicare il metodo `.isna()` e poi utilizzare `.sum()`.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.isna().sum())

Le righe contenenti valori mancanti possono essere visualizzate con:
`df[df.isna().any(axis=1)]`


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df[df.isna().any(axis=1)])

## Rimozione delle righe

La prima e l'ultima riga contengono solo i valori del target (`'species'`) e di `'island'`, fornendo informazioni troppo limitate per essere utili. Queste righe possono essere rimosse mantenendo solo quelle con meno di due valori `NaN` e riassegnandole a `df`.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

df = df[df.isna().sum(axis=1) < 2]
print(df.head(8))

Al contrario, le righe rimanenti contengono informazioni utili, con valori `NaN` presenti solo nella colonna `'sex'`. Invece di rimuovere queste righe, i valori mancanti possono essere **imputati**. Un approccio comune è utilizzare il trasformatore `SimpleImputer`, che verrà trattato nel prossimo capitolo.

L'apprendimento automatico è ormai utilizzato ovunque. Vuoi impararlo anche tu? Questo corso è un'introduzione al mondo del machine learning per apprendere i concetti di base, lavorare con scikit-learn – la libreria più popolare per ML – e realizzare il tuo primo progetto di machine learning.
Questo corso è rivolto a studenti con conoscenze di base di Python, Pandas e Numpy.

Apprendere i concetti di Machine Learning e il flusso di lavoro di un progetto ML.

Il preprocessing è probabilmente la fase più importante di un progetto di ML. Questo capitolo tratta le fasi di preprocessing necessarie per quasi qualsiasi dataset.

Una pipeline è un modo ordinato per combinare tutti i passaggi di pre-elaborazione insieme a un modello. Le pipeline rendono molto più semplice addestrare e utilizzare un modello.

La modellazione è la fase più interessante di un progetto di ML. Impariamo a costruire, ottimizzare e valutare il modello!

Gestione dei Valori Mancanti

Identificazione dei valori mancanti

Rimozione delle righe