Svep för att visa menyn

Vid utveckling av maskininlärningslösningar upprepas ofta samma steg: datapreprocessering, feature engineering, modellträning och utvärdering. Att skriva dessa steg separat kan leda till kodupprepning och försvåra reproducerbarheten av resultaten. scikit-learn tillhandahåller klassen Pipeline, som gör det möjligt att kedja samman preprocesserings- och modelleringssteg i ett enda, strömlinjeformat arbetsflöde. Detta tillvägagångssätt gör koden renare, mer underhållbar och enklare att reproducera.

Definition

En pipeline standardiserar ML-arbetsflödet och minskar kodupprepning.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Bygga Pipelines med scikit-learn

Definition

En pipeline standardiserar ML-arbetsflödet och minskar kodupprepning.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10