Que ferons-nous avec les valeurs NaN ?
Dans le chapitre précédent, vous avez obtenu le résultat :
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Le jeu de données contient 418 lignes. Regardez la colonne Cabin
, où l’on compte 327
valeurs manquantes. Il n’est pas pertinent de les remplir car nous disposons de très peu d’informations ici. Ainsi, dans ce cas, la meilleure solution consiste à supprimer la colonne qui n’a pas de sens pour nous. L’une des raisons est que nous pourrions supprimer uniquement les lignes contenant des valeurs manquantes, mais il n’est pas envisageable de supprimer 327 lignes sur 418. Voyons donc comment procéder.
Pour supprimer une colonne, il faut appliquer la méthode .drop()
au jeu de données. La syntaxe est la suivante :
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Explication :
.drop()
— méthode qui supprime des colonnes ;columns = 'column_name'
oucolumns = ['column_1', 'column_2']
— argument de la fonction où l’on précise le ou les noms des colonnes à supprimer ;inplace = True
— argument utile de pandas permettant d’enregistrer toutes les modifications. Il peut également être utilisé dans d’autres fonctions ; nous en découvrirons certaines plus tard.
Swipe to start coding
Votre tâche consiste à supprimer la colonne contenant le plus grand nombre de valeurs NaN. Suivez l'algorithme :
- Supprimer la colonne
'Cabin'
en utilisant l'argumentinplace = True
. - Afficher
5
lignes aléatoires de l'ensemble de données.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.03
Que ferons-nous avec les valeurs NaN ?
Glissez pour afficher le menu
Dans le chapitre précédent, vous avez obtenu le résultat :
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Le jeu de données contient 418 lignes. Regardez la colonne Cabin
, où l’on compte 327
valeurs manquantes. Il n’est pas pertinent de les remplir car nous disposons de très peu d’informations ici. Ainsi, dans ce cas, la meilleure solution consiste à supprimer la colonne qui n’a pas de sens pour nous. L’une des raisons est que nous pourrions supprimer uniquement les lignes contenant des valeurs manquantes, mais il n’est pas envisageable de supprimer 327 lignes sur 418. Voyons donc comment procéder.
Pour supprimer une colonne, il faut appliquer la méthode .drop()
au jeu de données. La syntaxe est la suivante :
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Explication :
.drop()
— méthode qui supprime des colonnes ;columns = 'column_name'
oucolumns = ['column_1', 'column_2']
— argument de la fonction où l’on précise le ou les noms des colonnes à supprimer ;inplace = True
— argument utile de pandas permettant d’enregistrer toutes les modifications. Il peut également être utilisé dans d’autres fonctions ; nous en découvrirons certaines plus tard.
Swipe to start coding
Votre tâche consiste à supprimer la colonne contenant le plus grand nombre de valeurs NaN. Suivez l'algorithme :
- Supprimer la colonne
'Cabin'
en utilisant l'argumentinplace = True
. - Afficher
5
lignes aléatoires de l'ensemble de données.
Solution
Merci pour vos commentaires !
single