Lære Opbygning af Pipelines med Scikit-learn

Stryg for at vise menuen

Når du udvikler maskinlæringsløsninger, gentager du ofte de samme trin: datapreprocessering, feature engineering, modeltræning og evaluering. At skrive disse trin separat kan føre til kodegentagelse og gøre det vanskeligt at reproducere resultater. scikit-learn tilbyder klassen Pipeline, som gør det muligt at kæde preprocesserings- og modelleringsskridt sammen i et enkelt, strømlinet workflow. Denne tilgang gør din kode mere overskuelig, lettere at vedligeholde og nemmere at reproducere.

Definition

En pipeline standardiserer ML-arbejdsgangen og reducerer kodegentagelse.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 10

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 1. Kapitel 10