Swipe um das Menü anzuzeigen

Beim Erstellen von Machine-Learning-Lösungen wiederholen sich häufig dieselben Schritte: Datenvorverarbeitung, Feature Engineering, Modelltraining und Evaluation. Das separate Schreiben dieser Schritte kann zu Code-Duplikation führen und erschwert die Reproduzierbarkeit der Ergebnisse. scikit-learn stellt die Klasse Pipeline bereit, mit der sich Vorverarbeitungs- und Modellierungsschritte zu einem einzigen, strukturierten Workflow verketten lassen. Dieser Ansatz sorgt für einen übersichtlicheren, besser wartbaren und leichter reproduzierbaren Code.

Definition

Eine Pipeline standardisiert den ML-Workflow und reduziert Code-Duplikation.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 10

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Erstellung von Pipelines mit Scikit-Learn

Definition

Eine Pipeline standardisiert den ML-Workflow und reduziert Code-Duplikation.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 10