Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Getting Familiar with Dataset | Prétraitement des Données avec Scikit-learn
Introduction à l'Apprentissage Automatique avec Python

Getting Familiar with Dataset

Glissez pour afficher le menu

Commencer la prétraitement en explorant le jeu de données. Tout au long de ce cours, le jeu de données des manchots sera utilisé, avec pour objectif de prédire l'espèce d'un manchot.

quel manchot

Il existe trois options possibles, souvent appelées classes en apprentissage automatique :

Manchots

Les caractéristiques sont : 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' et 'sex'.

Le jeu de données est stocké dans le fichier penguins.csv. Il peut être chargé à partir d'un lien avec la fonction pd.read_csv() pour examiner son contenu :

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))

Ce jeu de données présente plusieurs problèmes à résoudre :

  • Données manquantes ;
  • Variables catégorielles ;
  • Échelles de caractéristiques différentes.

Données manquantes

La plupart des algorithmes de ML ne peuvent pas traiter directement les valeurs manquantes, il est donc nécessaire de les gérer avant l'entraînement. Les valeurs manquantes peuvent être supprimées ou imputées (remplacées par des valeurs de substitution).

Dans pandas, les cellules vides sont représentées par NaN. De nombreux modèles de ML génèrent une erreur si le jeu de données contient ne serait-ce qu'un seul NaN.

Valeurs manquantes

Données catégorielles

Le jeu de données comprend des variables catégorielles, que les modèles d'apprentissage automatique ne peuvent pas traiter directement.

Colonnes catégorielles

Les données catégorielles doivent être encodées sous forme numérique.

Différentes échelles

Les valeurs de 'culmen_depth_mm' varient de 13.1 à 21.5, tandis que les valeurs de 'body_mass_g' varient de 2700 à 6300. Pour cette raison, certains modèles d'apprentissage automatique peuvent considérer la caractéristique 'body_mass_g' comme beaucoup plus importante que 'culmen_depth_mm'.

Échelle différente

La mise à l'échelle résout ce problème. Ce sujet sera abordé dans les chapitres suivants.

question-icon

Associez le problème à une solution appropriée.

Missing values –
Categorical data –

Different Scales –

Cliquez ou glissez-déposez des éléments et remplissez les blancs

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 2. Chapitre 2
some-alt