Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Se Familiariser Avec le Jeu de Données | Prétraitement des Données avec Scikit-learn
Introduction au ML Avec Scikit-Learn

bookSe Familiariser Avec le Jeu de Données

Commencez la prétraitement en explorant le jeu de données. Tout au long de ce cours, le jeu de données des manchots sera utilisé, avec pour objectif de prédire l'espèce d'un manchot.

Il existe trois options possibles, souvent appelées classes en apprentissage automatique :

Les caractéristiques sont : 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' et 'sex'.

Le jeu de données est stocké dans le fichier penguins.csv. Il peut être chargé à partir d'un lien avec la fonction pd.read_csv() pour examiner son contenu :

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Ce jeu de données présente plusieurs problèmes qui doivent être résolus :

  • Données manquantes ;
  • Variables catégorielles ;
  • Échelles de caractéristiques différentes.

Données manquantes

La plupart des algorithmes d'apprentissage automatique ne peuvent pas traiter directement les valeurs manquantes, il est donc nécessaire de les gérer avant l'entraînement. Les valeurs manquantes peuvent être supprimées ou imputées (remplacées par des valeurs de substitution).

Dans pandas, les cellules vides sont représentées par NaN. De nombreux modèles d'apprentissage automatique généreront une erreur si le jeu de données contient ne serait-ce qu'un seul NaN.

Données catégorielles

Le jeu de données comprend des variables catégorielles, que les modèles d'apprentissage automatique ne peuvent pas traiter directement.

Les données catégorielles doivent être encodées sous forme numérique.

Échelles différentes

Les valeurs de 'culmen_depth_mm' varient de 13.1 à 21.5, tandis que celles de 'body_mass_g' vont de 2700 à 6300. Pour cette raison, certains modèles d'apprentissage automatique peuvent considérer la caractéristique 'body_mass_g' comme beaucoup plus importante que 'culmen_depth_mm'.

La mise à l'échelle résout ce problème. Elle sera abordée dans les chapitres suivants.

question-icon

Associer le problème à une solution appropriée.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.13

bookSe Familiariser Avec le Jeu de Données

Glissez pour afficher le menu

Commencez la prétraitement en explorant le jeu de données. Tout au long de ce cours, le jeu de données des manchots sera utilisé, avec pour objectif de prédire l'espèce d'un manchot.

Il existe trois options possibles, souvent appelées classes en apprentissage automatique :

Les caractéristiques sont : 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' et 'sex'.

Le jeu de données est stocké dans le fichier penguins.csv. Il peut être chargé à partir d'un lien avec la fonction pd.read_csv() pour examiner son contenu :

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Ce jeu de données présente plusieurs problèmes qui doivent être résolus :

  • Données manquantes ;
  • Variables catégorielles ;
  • Échelles de caractéristiques différentes.

Données manquantes

La plupart des algorithmes d'apprentissage automatique ne peuvent pas traiter directement les valeurs manquantes, il est donc nécessaire de les gérer avant l'entraînement. Les valeurs manquantes peuvent être supprimées ou imputées (remplacées par des valeurs de substitution).

Dans pandas, les cellules vides sont représentées par NaN. De nombreux modèles d'apprentissage automatique généreront une erreur si le jeu de données contient ne serait-ce qu'un seul NaN.

Données catégorielles

Le jeu de données comprend des variables catégorielles, que les modèles d'apprentissage automatique ne peuvent pas traiter directement.

Les données catégorielles doivent être encodées sous forme numérique.

Échelles différentes

Les valeurs de 'culmen_depth_mm' varient de 13.1 à 21.5, tandis que celles de 'body_mass_g' vont de 2700 à 6300. Pour cette raison, certains modèles d'apprentissage automatique peuvent considérer la caractéristique 'body_mass_g' comme beaucoup plus importante que 'culmen_depth_mm'.

La mise à l'échelle résout ce problème. Elle sera abordée dans les chapitres suivants.

question-icon

Associer le problème à une solution appropriée.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 2
some-alt