Створення Конвеєрів із Scikit-learn
Свайпніть щоб показати меню
Під час створення рішень машинного навчання часто повторюються одні й ті самі етапи: попередня обробка даних, створення ознак, навчання моделі та оцінювання. Окреме написання цих етапів може призвести до дублювання коду та ускладнити відтворення результатів. Бібліотека scikit-learn надає клас Pipeline, який дозволяє об'єднувати етапи попередньої обробки та моделювання в єдиний, впорядкований робочий процес. Такий підхід робить код чистішим, легшим для підтримки та простішим для відтворення.
Визначення
Пайплайн стандартизує робочий процес ML і зменшує дублювання коду.
12345678910111213141516171819202122232425262728import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import Pipeline # Load sample data iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = iris.target # Split data X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) # Create a pipeline with preprocessing and modeling steps pipeline = Pipeline([ ("scaler", StandardScaler()), # Step 1: Standardize features ("classifier", LogisticRegression()) # Step 2: Train classifier ]) # Fit the pipeline on training data pipeline.fit(X_train, y_train) # Predict on test data predictions = pipeline.predict(X_test) print("Pipeline accuracy:", pipeline.score(X_test, y_test))
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 1. Розділ 10
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Секція 1. Розділ 10