Erstellung von Pipelines mit Scikit-Learn
Swipe um das Menü anzuzeigen
Beim Erstellen von Machine-Learning-Lösungen wiederholen sich häufig dieselben Schritte: Datenvorverarbeitung, Feature Engineering, Modelltraining und Evaluation. Das separate Schreiben dieser Schritte kann zu Code-Duplikation führen und erschwert die Reproduzierbarkeit der Ergebnisse. scikit-learn stellt die Klasse Pipeline bereit, mit der sich Vorverarbeitungs- und Modellierungsschritte zu einem einzigen, strukturierten Workflow verketten lassen. Dieser Ansatz sorgt für einen übersichtlicheren, besser wartbaren und leichter reproduzierbaren Code.
Eine Pipeline standardisiert den ML-Workflow und reduziert Code-Duplikation.
12345678910111213141516171819202122232425262728import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import Pipeline # Load sample data iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = iris.target # Split data X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) # Create a pipeline with preprocessing and modeling steps pipeline = Pipeline([ ("scaler", StandardScaler()), # Step 1: Standardize features ("classifier", LogisticRegression()) # Step 2: Train classifier ]) # Fit the pipeline on training data pipeline.fit(X_train, y_train) # Predict on test data predictions = pipeline.predict(X_test) print("Pipeline accuracy:", pipeline.score(X_test, y_test))
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen