Se Familiariser Avec le Jeu de Données
Commencez la prétraitement en explorant le jeu de données. Tout au long de ce cours, le jeu de données des manchots sera utilisé, avec pour objectif de prédire l'espèce d'un manchot.
Il existe trois options possibles, souvent appelées classes en apprentissage automatique :
Les caractéristiques sont : 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
et 'sex'
.
Le jeu de données est stocké dans le fichier penguins.csv
. Il peut être chargé à partir d'un lien avec la fonction pd.read_csv()
pour examiner son contenu :
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Ce jeu de données présente plusieurs problèmes qui doivent être résolus :
- Données manquantes ;
- Variables catégorielles ;
- Échelles de caractéristiques différentes.
Données manquantes
La plupart des algorithmes d'apprentissage automatique ne peuvent pas traiter directement les valeurs manquantes, il est donc nécessaire de les gérer avant l'entraînement. Les valeurs manquantes peuvent être supprimées ou imputées (remplacées par des valeurs de substitution).
Dans pandas
, les cellules vides sont représentées par NaN
. De nombreux modèles d'apprentissage automatique généreront une erreur si le jeu de données contient ne serait-ce qu'un seul NaN
.
Données catégorielles
Le jeu de données comprend des variables catégorielles, que les modèles d'apprentissage automatique ne peuvent pas traiter directement.
Les données catégorielles doivent être encodées sous forme numérique.
Échelles différentes
Les valeurs de 'culmen_depth_mm'
varient de 13.1 à 21.5, tandis que celles de 'body_mass_g'
vont de 2700 à 6300. Pour cette raison, certains modèles d'apprentissage automatique peuvent considérer la caractéristique 'body_mass_g'
comme beaucoup plus importante que 'culmen_depth_mm'
.
La mise à l'échelle résout ce problème. Elle sera abordée dans les chapitres suivants.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Se Familiariser Avec le Jeu de Données
Glissez pour afficher le menu
Commencez la prétraitement en explorant le jeu de données. Tout au long de ce cours, le jeu de données des manchots sera utilisé, avec pour objectif de prédire l'espèce d'un manchot.
Il existe trois options possibles, souvent appelées classes en apprentissage automatique :
Les caractéristiques sont : 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
et 'sex'
.
Le jeu de données est stocké dans le fichier penguins.csv
. Il peut être chargé à partir d'un lien avec la fonction pd.read_csv()
pour examiner son contenu :
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Ce jeu de données présente plusieurs problèmes qui doivent être résolus :
- Données manquantes ;
- Variables catégorielles ;
- Échelles de caractéristiques différentes.
Données manquantes
La plupart des algorithmes d'apprentissage automatique ne peuvent pas traiter directement les valeurs manquantes, il est donc nécessaire de les gérer avant l'entraînement. Les valeurs manquantes peuvent être supprimées ou imputées (remplacées par des valeurs de substitution).
Dans pandas
, les cellules vides sont représentées par NaN
. De nombreux modèles d'apprentissage automatique généreront une erreur si le jeu de données contient ne serait-ce qu'un seul NaN
.
Données catégorielles
Le jeu de données comprend des variables catégorielles, que les modèles d'apprentissage automatique ne peuvent pas traiter directement.
Les données catégorielles doivent être encodées sous forme numérique.
Échelles différentes
Les valeurs de 'culmen_depth_mm'
varient de 13.1 à 21.5, tandis que celles de 'body_mass_g'
vont de 2700 à 6300. Pour cette raison, certains modèles d'apprentissage automatique peuvent considérer la caractéristique 'body_mass_g'
comme beaucoup plus importante que 'culmen_depth_mm'
.
La mise à l'échelle résout ce problème. Elle sera abordée dans les chapitres suivants.
Merci pour vos commentaires !