Apprendre Qu'est-ce Qu'un Pipeline

Dans la section précédente, trois étapes de prétraitement ont été réalisées : imputation, encodage et mise à l'échelle.

Les étapes de prétraitement ont été appliquées une par une, en transformant des colonnes spécifiques et en les réintégrant dans le tableau X. Cette méthode peut s'avérer fastidieuse, en particulier avec OneHotEncoder, qui modifie le nombre de colonnes.

Un autre inconvénient est que toute nouvelle donnée utilisée pour la prédiction doit suivre la même séquence de transformations, ce qui nécessite de répéter l'ensemble du processus.

La classe Pipeline de Scikit-learn simplifie cela en combinant toutes les transformations dans un flux de travail unique, facilitant ainsi l'application cohérente du prétraitement aux données d'entraînement comme aux nouvelles instances.

Un Pipeline agit comme un conteneur pour une séquence de transformateurs, et éventuellement un estimateur. Lorsque la méthode .fit_transform() est appelée sur un Pipeline, elle applique séquentiellement la méthode .fit_transform() de chaque transformateur aux données.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Cette approche rationalisée signifie qu'il suffit d'appeler .fit_transform() une seule fois sur l'ensemble d'entraînement puis d'utiliser la méthode .transform() pour traiter de nouvelles instances.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Glissez pour afficher le menu

Dans la section précédente, trois étapes de prétraitement ont été réalisées : imputation, encodage et mise à l'échelle.

Un autre inconvénient est que toute nouvelle donnée utilisée pour la prédiction doit suivre la même séquence de transformations, ce qui nécessite de répéter l'ensemble du processus.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 1