Summary  
This chapter demonstrates how to detect and quantify missing values in a pandas DataFrame using methods like .info() and .isna(), filter rows containing NaNs, and remove rows based on a missing-data threshold.  

General domain of usage  
Data preprocessing for machine learning

Seul un nombre limité de modèles d'apprentissage automatique peuvent gérer les valeurs manquantes, il est donc nécessaire de vérifier que le jeu de données ne comporte aucune lacune. Si des valeurs manquantes sont présentes, elles peuvent être traitées de deux manières :

* Suppression des lignes contenant des valeurs manquantes ;
* Remplissage des cellules vides avec des valeurs de substitution, un processus appelé **imputation**.


## Identification des valeurs manquantes

Pour afficher des informations générales sur le jeu de données et vérifier la présence de valeurs manquantes, vous pouvez utiliser la méthode `.info()` d'un DataFrame.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.info())

Le jeu de données contient 344 entrées, mais les colonnes `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` et `'sex'` comportent chacune moins de 344 valeurs non nulles, ce qui indique la présence de données manquantes.


Null est un autre terme pour désigner les valeurs manquantes.  

Remarque

Pour identifier le **nombre de valeurs manquantes dans chaque colonne**, appliquez la méthode `.isna()` puis utilisez `.sum()`.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.isna().sum())

Les lignes contenant des valeurs manquantes peuvent être affichées avec :
`df[df.isna().any(axis=1)]`


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df[df.isna().any(axis=1)])

## Suppression des lignes

Les première et dernière lignes ne contiennent que les valeurs de la cible (`'species'`) et de `'island'`, fournissant trop peu d'informations pour être utiles. Ces lignes peuvent être supprimées en conservant uniquement celles ayant moins de deux valeurs `NaN` et en les réaffectant à `df`.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

df = df[df.isna().sum(axis=1) < 2]
print(df.head(8))

En revanche, les lignes restantes contiennent des informations utiles, avec des valeurs `NaN` apparaissant uniquement dans la colonne `'sex'`. Au lieu de supprimer ces lignes, les valeurs manquantes peuvent être **imputées**. Une approche courante consiste à utiliser le transformateur `SimpleImputer`, qui sera abordé dans le prochain chapitre.

L'apprentissage automatique est désormais utilisé partout. Vous souhaitez l'apprendre vous-même ? Ce cours constitue une introduction au monde de l'apprentissage automatique afin de vous permettre d'acquérir les concepts de base, de travailler avec Scikit-learn – la bibliothèque la plus populaire pour le ML – et de réaliser votre premier projet d'apprentissage automatique.
Ce cours s'adresse aux étudiants ayant des connaissances de base en Python, Pandas et Numpy.

Découvrez les concepts de l'apprentissage automatique et le flux de travail d'un projet ML.

Le prétraitement est probablement l’étape la plus importante d’un projet ML. Ce chapitre couvre les étapes de prétraitement nécessaires pour presque tout jeu de données.

Un pipeline est une méthode élégante pour combiner toutes les étapes de prétraitement ainsi qu’un modèle. Les pipelines facilitent grandement l’entraînement et l’utilisation d’un modèle.

La modélisation est l'étape la plus intéressante d'un projet ML. Apprenons à construire, ajuster et évaluer le modèle !

Gestion des valeurs manquantes

Identification des valeurs manquantes

Suppression des lignes