Apprendre Création de Pipelines avec scikit-learn

Glissez pour afficher le menu

Lors de la création de solutions d'apprentissage automatique, les mêmes étapes sont souvent répétées : prétraitement des données, ingénierie des caractéristiques, entraînement du modèle et évaluation. Écrire ces étapes séparément peut entraîner une duplication du code et rendre la reproduction des résultats difficile. scikit-learn propose la classe Pipeline, qui permet de chaîner les étapes de prétraitement et de modélisation dans un flux de travail unique et rationalisé. Cette approche rend le code plus clair, plus facile à maintenir et à reproduire.

Définition

Une pipeline standardise le flux de travail en apprentissage automatique et réduit la duplication du code.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 10

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 10