Glissez pour afficher le menu

Commencer la prétraitement en explorant le jeu de données. Tout au long de ce cours, le jeu de données des manchots sera utilisé, avec pour objectif de prédire l'espèce d'un manchot.

Il existe trois options possibles, souvent appelées classes en apprentissage automatique :

Les caractéristiques sont : 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' et 'sex'.

Le jeu de données est stocké dans le fichier penguins.csv. Il peut être chargé à partir d'un lien avec la fonction pd.read_csv() pour examiner son contenu :


              12345
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Ce jeu de données présente plusieurs problèmes à résoudre :

Données manquantes ;
Variables catégorielles ;
Échelles de caractéristiques différentes.

Données manquantes

La plupart des algorithmes de ML ne peuvent pas traiter directement les valeurs manquantes, il est donc nécessaire de les gérer avant l'entraînement. Les valeurs manquantes peuvent être supprimées ou imputées (remplacées par des valeurs de substitution).

Dans pandas, les cellules vides sont représentées par NaN. De nombreux modèles de ML génèrent une erreur si le jeu de données contient ne serait-ce qu'un seul NaN.

Données catégorielles

Le jeu de données comprend des variables catégorielles, que les modèles d'apprentissage automatique ne peuvent pas traiter directement.

Les données catégorielles doivent être encodées sous forme numérique.

Différentes échelles

Les valeurs de 'culmen_depth_mm' varient de 13.1 à 21.5, tandis que les valeurs de 'body_mass_g' varient de 2700 à 6300. Pour cette raison, certains modèles d'apprentissage automatique peuvent considérer la caractéristique 'body_mass_g' comme beaucoup plus importante que 'culmen_depth_mm'.

La mise à l'échelle résout ce problème. Ce sujet sera abordé dans les chapitres suivants.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Getting Familiar with Dataset