Herausforderung: Alles Zusammenführen
In dieser Aufgabe wird der vollständige Workflow angewendet, der im Kurs vermittelt wurde – von der Datenvorverarbeitung über das Training bis hin zur Modellevaluierung.





Swipe to start coding
Sie erhalten einen Datensatz mit Pinguinen. Ihr Ziel ist es, eine Machine-Learning-Pipeline zu erstellen, die Pinguinarten mithilfe eines K-Nearest Neighbors (KNN)-Modells klassifiziert und dabei die Kodierung, fehlende Werte und Parameteroptimierung korrekt behandelt.
- Kodierung der Zielvariable mit
LabelEncoder
. - Aufteilen des Datensatzes in Trainings- und Testdaten mit
test_size=0.33
. - Erstellung eines ColumnTransformer (
ct
), der ausschließlich die Spalten'island'
und'sex'
mit einem geeigneten Encoder für nominale Daten (OneHotEncoder
) kodiert und die übrigen Spalten unverändert lässt. - Definition eines Parametergrids (
param_grid
) mit folgenden Werten fürn_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Erstellung eines
GridSearchCV
-Objekts mitKNeighborsClassifier
als Basismodell undparam_grid
als Parameter. - Aufbau einer Pipeline bestehend aus:
- dem
ColumnTransformer
(ct
); - einem
SimpleImputer
(Strategie ='most_frequent'
); - einem
StandardScaler
; - und dem
GridSearchCV
als letztem Schritt.
- Training der Pipeline mit den Trainingsdaten (
X_train
,y_train
). - Auswertung des Modells auf den Testdaten durch Ausgabe von
.score(X_test, y_test)
. - Vorhersage auf dem Testdatensatz und Ausgabe der ersten 5 dekodierten Vorhersagen mit
label_enc.inverse_transform()
. - Abschließend Ausgabe des besten Schätzers, der von
GridSearchCV
gefunden wurde.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.13
Herausforderung: Alles Zusammenführen
Swipe um das Menü anzuzeigen
In dieser Aufgabe wird der vollständige Workflow angewendet, der im Kurs vermittelt wurde – von der Datenvorverarbeitung über das Training bis hin zur Modellevaluierung.





Swipe to start coding
Sie erhalten einen Datensatz mit Pinguinen. Ihr Ziel ist es, eine Machine-Learning-Pipeline zu erstellen, die Pinguinarten mithilfe eines K-Nearest Neighbors (KNN)-Modells klassifiziert und dabei die Kodierung, fehlende Werte und Parameteroptimierung korrekt behandelt.
- Kodierung der Zielvariable mit
LabelEncoder
. - Aufteilen des Datensatzes in Trainings- und Testdaten mit
test_size=0.33
. - Erstellung eines ColumnTransformer (
ct
), der ausschließlich die Spalten'island'
und'sex'
mit einem geeigneten Encoder für nominale Daten (OneHotEncoder
) kodiert und die übrigen Spalten unverändert lässt. - Definition eines Parametergrids (
param_grid
) mit folgenden Werten fürn_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Erstellung eines
GridSearchCV
-Objekts mitKNeighborsClassifier
als Basismodell undparam_grid
als Parameter. - Aufbau einer Pipeline bestehend aus:
- dem
ColumnTransformer
(ct
); - einem
SimpleImputer
(Strategie ='most_frequent'
); - einem
StandardScaler
; - und dem
GridSearchCV
als letztem Schritt.
- Training der Pipeline mit den Trainingsdaten (
X_train
,y_train
). - Auswertung des Modells auf den Testdaten durch Ausgabe von
.score(X_test, y_test)
. - Vorhersage auf dem Testdatensatz und Ausgabe der ersten 5 dekodierten Vorhersagen mit
label_enc.inverse_transform()
. - Abschließend Ausgabe des besten Schätzers, der von
GridSearchCV
gefunden wurde.
Lösung
Danke für Ihr Feedback!
single