Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce Qu'un Pipeline | Pipelines
Introduction au ML Avec Scikit-Learn

bookQu'est-ce Qu'un Pipeline

Dans la section précédente, nous avons effectué trois étapes de prétraitement : l’imputation, l’encodage et la mise à l’échelle.

Nous avons procédé étape par étape, en transformant les colonnes nécessaires et en les regroupant dans le tableau X. Ce processus est fastidieux, en particulier lorsqu’un OneHotEncoder modifie le nombre de colonnes.

Un autre inconvénient est que, pour effectuer une prédiction, les nouvelles instances doivent passer par les mêmes étapes de prétraitement, ce qui implique de réaliser à nouveau toutes ces transformations.

Heureusement, Scikit-learn propose la classe Pipeline – une méthode simple pour regrouper toutes ces transformations, facilitant ainsi la transformation des données d’entraînement comme des nouvelles instances.

Un Pipeline sert de conteneur pour une séquence de transformateurs, et finalement, un estimateur. Lorsque la méthode .fit_transform() est appelée sur un Pipeline, elle applique séquentiellement la méthode .fit_transform() de chaque transformateur aux données.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Cette approche rationalisée signifie qu’il suffit d’appeler .fit_transform() une seule fois sur l’ensemble d’entraînement puis d’utiliser la méthode .transform() pour traiter les nouvelles instances.

question mark

Quel est l'avantage principal d'utiliser un Pipeline dans scikit-learn pour la préparation des données et l'entraînement du modèle ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.13

bookQu'est-ce Qu'un Pipeline

Glissez pour afficher le menu

Dans la section précédente, nous avons effectué trois étapes de prétraitement : l’imputation, l’encodage et la mise à l’échelle.

Nous avons procédé étape par étape, en transformant les colonnes nécessaires et en les regroupant dans le tableau X. Ce processus est fastidieux, en particulier lorsqu’un OneHotEncoder modifie le nombre de colonnes.

Un autre inconvénient est que, pour effectuer une prédiction, les nouvelles instances doivent passer par les mêmes étapes de prétraitement, ce qui implique de réaliser à nouveau toutes ces transformations.

Heureusement, Scikit-learn propose la classe Pipeline – une méthode simple pour regrouper toutes ces transformations, facilitant ainsi la transformation des données d’entraînement comme des nouvelles instances.

Un Pipeline sert de conteneur pour une séquence de transformateurs, et finalement, un estimateur. Lorsque la méthode .fit_transform() est appelée sur un Pipeline, elle applique séquentiellement la méthode .fit_transform() de chaque transformateur aux données.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Cette approche rationalisée signifie qu’il suffit d’appeler .fit_transform() une seule fois sur l’ensemble d’entraînement puis d’utiliser la méthode .transform() pour traiter les nouvelles instances.

question mark

Quel est l'avantage principal d'utiliser un Pipeline dans scikit-learn pour la préparation des données et l'entraînement du modèle ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1
some-alt