Veeg om het menu te tonen

Bij het ontwikkelen van machine learning-oplossingen worden vaak dezelfde stappen herhaald: gegevensvoorbewerking, feature engineering, modeltraining en evaluatie. Het afzonderlijk schrijven van deze stappen kan leiden tot code-duplicatie en maakt het lastig om resultaten te reproduceren. scikit-learn biedt de Pipeline-klasse, waarmee u voorbewerkings- en modelleer-stappen kunt samenvoegen tot één gestroomlijnde workflow. Deze aanpak zorgt voor schonere, beter onderhoudbare en eenvoudiger te reproduceren code.

Definitie

Een pipeline standaardiseert de ML-werkstroom en vermindert code-duplicatie.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 10

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Pipelines Bouwen met scikit-learn

Definitie

Een pipeline standaardiseert de ML-werkstroom en vermindert code-duplicatie.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 10