Qu'est-ce Qu'un Pipeline
Dans la section précédente, nous avons effectué trois étapes de prétraitement : l’imputation, l’encodage et la mise à l’échelle.
Nous avons procédé étape par étape, en transformant les colonnes nécessaires et en les regroupant dans le tableau X
. Ce processus est fastidieux, en particulier lorsqu’un OneHotEncoder
modifie le nombre de colonnes.
Un autre inconvénient est que, pour effectuer une prédiction, les nouvelles instances doivent passer par les mêmes étapes de prétraitement, ce qui implique de réaliser à nouveau toutes ces transformations.
Heureusement, Scikit-learn propose la classe Pipeline
– une méthode simple pour regrouper toutes ces transformations, facilitant ainsi la transformation des données d’entraînement comme des nouvelles instances.
Un Pipeline
sert de conteneur pour une séquence de transformateurs, et finalement, un estimateur. Lorsque la méthode .fit_transform()
est appelée sur un Pipeline
, elle applique séquentiellement la méthode .fit_transform()
de chaque transformateur aux données.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Cette approche rationalisée signifie qu’il suffit d’appeler .fit_transform()
une seule fois sur l’ensemble d’entraînement puis d’utiliser la méthode .transform()
pour traiter les nouvelles instances.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Qu'est-ce Qu'un Pipeline
Glissez pour afficher le menu
Dans la section précédente, nous avons effectué trois étapes de prétraitement : l’imputation, l’encodage et la mise à l’échelle.
Nous avons procédé étape par étape, en transformant les colonnes nécessaires et en les regroupant dans le tableau X
. Ce processus est fastidieux, en particulier lorsqu’un OneHotEncoder
modifie le nombre de colonnes.
Un autre inconvénient est que, pour effectuer une prédiction, les nouvelles instances doivent passer par les mêmes étapes de prétraitement, ce qui implique de réaliser à nouveau toutes ces transformations.
Heureusement, Scikit-learn propose la classe Pipeline
– une méthode simple pour regrouper toutes ces transformations, facilitant ainsi la transformation des données d’entraînement comme des nouvelles instances.
Un Pipeline
sert de conteneur pour une séquence de transformateurs, et finalement, un estimateur. Lorsque la méthode .fit_transform()
est appelée sur un Pipeline
, elle applique séquentiellement la méthode .fit_transform()
de chaque transformateur aux données.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Cette approche rationalisée signifie qu’il suffit d’appeler .fit_transform()
une seule fois sur l’ensemble d’entraînement puis d’utiliser la méthode .transform()
pour traiter les nouvelles instances.
Merci pour vos commentaires !