Erstellung von Pipelines mit Scikit-Learn
Beim Erstellen von Machine-Learning-Lösungen wiederholen sich häufig dieselben Schritte: Datenvorverarbeitung, Feature Engineering, Modelltraining und Evaluation. Das separate Schreiben dieser Schritte kann zu Code-Duplikation führen und erschwert die Reproduzierbarkeit der Ergebnisse. scikit-learn stellt die Klasse Pipeline bereit, mit der sich Vorverarbeitungs- und Modellierungsschritte zu einem einzigen, strukturierten Workflow verketten lassen. Dieser Ansatz sorgt für einen übersichtlicheren, besser wartbaren und leichter reproduzierbaren Code.
Eine Pipeline standardisiert den ML-Workflow und reduziert Code-Duplikation.
12345678910111213141516171819202122232425262728import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import Pipeline # Load sample data iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = iris.target # Split data X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) # Create a pipeline with preprocessing and modeling steps pipeline = Pipeline([ ("scaler", StandardScaler()), # Step 1: Standardize features ("classifier", LogisticRegression()) # Step 2: Train classifier ]) # Fit the pipeline on training data pipeline.fit(X_train, y_train) # Predict on test data predictions = pipeline.predict(X_test) print("Pipeline accuracy:", pipeline.score(X_test, y_test))
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 6.67
Erstellung von Pipelines mit Scikit-Learn
Swipe um das Menü anzuzeigen
Beim Erstellen von Machine-Learning-Lösungen wiederholen sich häufig dieselben Schritte: Datenvorverarbeitung, Feature Engineering, Modelltraining und Evaluation. Das separate Schreiben dieser Schritte kann zu Code-Duplikation führen und erschwert die Reproduzierbarkeit der Ergebnisse. scikit-learn stellt die Klasse Pipeline bereit, mit der sich Vorverarbeitungs- und Modellierungsschritte zu einem einzigen, strukturierten Workflow verketten lassen. Dieser Ansatz sorgt für einen übersichtlicheren, besser wartbaren und leichter reproduzierbaren Code.
Eine Pipeline standardisiert den ML-Workflow und reduziert Code-Duplikation.
12345678910111213141516171819202122232425262728import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import Pipeline # Load sample data iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = iris.target # Split data X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) # Create a pipeline with preprocessing and modeling steps pipeline = Pipeline([ ("scaler", StandardScaler()), # Step 1: Standardize features ("classifier", LogisticRegression()) # Step 2: Train classifier ]) # Fit the pipeline on training data pipeline.fit(X_train, y_train) # Predict on test data predictions = pipeline.predict(X_test) print("Pipeline accuracy:", pipeline.score(X_test, y_test))
Danke für Ihr Feedback!