Contenu du cours
Techniques Avancées dans Pandas
Techniques Avancées dans Pandas
Remplir les Valeurs Manquantes
Supprimer les valeurs manquantes n'est pas la seule façon de s'en débarrasser. Vous pouvez également remplacer tous les NaN par une valeur définie, par exemple, par la valeur moyenne de la colonne ou par des zéros. Cela peut être utile dans de nombreux cas. Vous apprendrez cela dans le cours Apprendre les statistiques avec Python.
Regardez l'exemple de remplissage des valeurs manquantes dans la colonne 'Age'
avec la valeur médiane de cette colonne :
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_2', index_col = 0) data['Age'].fillna(value=data['Age'].median(), inplace=True) print(data['Age'].isna().sum())
Explication :
value = data['Age'].median()
- en utilisant l'argumentvalue
, nous indiquons à la méthode.fillna()
quoi faire avec les valeursNaN
. Dans ce cas, nous avons appliqué la méthode.fillna()
à la colonne'Age'
et remplacé toutes les valeurs manquantes par la médiane de la colonne ;inplace=True
- l'argument que nous pouvons utiliser pour enregistrer les modifications.
Swipe to start coding
L'une des façons les plus courantes de remplir les valeurs manquantes est de les remplacer par la valeur moyenne de la colonne. Donc, votre tâche ici est de remplacer les valeurs NaN
dans la colonne 'Age'
par la valeur moyenne de la colonne (en utilisant l'argument inplace = True
). Ensuite, affichez la somme des valeurs manquantes dans la colonne 'Age'
.
Solution
Merci pour vos commentaires !
Remplir les Valeurs Manquantes
Supprimer les valeurs manquantes n'est pas la seule façon de s'en débarrasser. Vous pouvez également remplacer tous les NaN par une valeur définie, par exemple, par la valeur moyenne de la colonne ou par des zéros. Cela peut être utile dans de nombreux cas. Vous apprendrez cela dans le cours Apprendre les statistiques avec Python.
Regardez l'exemple de remplissage des valeurs manquantes dans la colonne 'Age'
avec la valeur médiane de cette colonne :
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_2', index_col = 0) data['Age'].fillna(value=data['Age'].median(), inplace=True) print(data['Age'].isna().sum())
Explication :
value = data['Age'].median()
- en utilisant l'argumentvalue
, nous indiquons à la méthode.fillna()
quoi faire avec les valeursNaN
. Dans ce cas, nous avons appliqué la méthode.fillna()
à la colonne'Age'
et remplacé toutes les valeurs manquantes par la médiane de la colonne ;inplace=True
- l'argument que nous pouvons utiliser pour enregistrer les modifications.
Swipe to start coding
L'une des façons les plus courantes de remplir les valeurs manquantes est de les remplacer par la valeur moyenne de la colonne. Donc, votre tâche ici est de remplacer les valeurs NaN
dans la colonne 'Age'
par la valeur moyenne de la colonne (en utilisant l'argument inplace = True
). Ensuite, affichez la somme des valeurs manquantes dans la colonne 'Age'
.
Solution
Merci pour vos commentaires !