Що таке конвеєр
У попередньому розділі ми виконали три етапи попередньої обробки: імпутацію, кодування та масштабування.
Ми виконували це крок за кроком, трансформуючи необхідні стовпці та об'єднуючи їх назад у масив X
. Це трудомісткий процес, особливо коли використовується OneHotEncoder
, який змінює кількість стовпців.
Ще одна проблема полягає в тому, що для здійснення прогнозу нові екземпляри повинні проходити ті ж самі етапи попередньої обробки, тому потрібно виконувати всі ці трансформації знову.
На щастя, Scikit-learn надає клас Pipeline
— простий спосіб об'єднати всі ці трансформації разом, що полегшує трансформацію як тренувальних даних, так і нових екземплярів.
Pipeline
слугує контейнером для послідовності трансформерів і, зрештою, оцінювача. Коли викликається метод .fit_transform()
для Pipeline
, він послідовно застосовує метод .fit_transform()
кожного трансформера до даних.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Такий спрощений підхід означає, що потрібно викликати .fit_transform()
лише один раз для тренувального набору, а надалі використовувати метод .transform()
для обробки нових екземплярів.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 3.13
Що таке конвеєр
Свайпніть щоб показати меню
У попередньому розділі ми виконали три етапи попередньої обробки: імпутацію, кодування та масштабування.
Ми виконували це крок за кроком, трансформуючи необхідні стовпці та об'єднуючи їх назад у масив X
. Це трудомісткий процес, особливо коли використовується OneHotEncoder
, який змінює кількість стовпців.
Ще одна проблема полягає в тому, що для здійснення прогнозу нові екземпляри повинні проходити ті ж самі етапи попередньої обробки, тому потрібно виконувати всі ці трансформації знову.
На щастя, Scikit-learn надає клас Pipeline
— простий спосіб об'єднати всі ці трансформації разом, що полегшує трансформацію як тренувальних даних, так і нових екземплярів.
Pipeline
слугує контейнером для послідовності трансформерів і, зрештою, оцінювача. Коли викликається метод .fit_transform()
для Pipeline
, він послідовно застосовує метод .fit_transform()
кожного трансформера до даних.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Такий спрощений підхід означає, що потрібно викликати .fit_transform()
лише один раз для тренувального набору, а надалі використовувати метод .transform()
для обробки нових екземплярів.
Дякуємо за ваш відгук!