Herausforderung: Alles Zusammenführen
In dieser Aufgabe wird der vollständige im Kurs erlernte Workflow angewendet – von der Datenvorverarbeitung über das Training bis hin zur Modellevaluierung.
Swipe to start coding
Sie arbeiten mit einem Datensatz von Pinguinen. Ihr Ziel ist es, eine vollständige Machine-Learning-Pipeline zu erstellen, die Pinguinarten mithilfe eines K-Nearest Neighbors (KNN)-Modells klassifiziert. Die Pipeline soll die Kodierung kategorialer Merkmale, das Behandeln fehlender Werte, die Merkmals-Skalierung und die Parameterauswahl abdecken.
- Kodierung der Zielvariable
ymit der KlasseLabelEncoder. - Aufteilung des Datensatzes in Trainings- und Testdaten mit
train_test_split()undtest_size=0.33. - Erstellung eines
ColumnTransformernamensct, der einenOneHotEncoderauf die Spalten'island'und'sex'anwendet und alle anderen Spalten unverändert lässt (remainder='passthrough'). - Definition eines Parametergrids
param_gridmit folgenden Werten fürn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], sowie'weights'('uniform','distance') und'p'(1,2). - Erstellung eines
GridSearchCV-Objekts mitKNeighborsClassifier()als Schätzer undparam_gridals Parametergrid. - Aufbau einer Pipeline mit folgenden Schritten in der angegebenen Reihenfolge:
- Der
ColumnTransformer(ct); - Ein
SimpleImputermit der Strategie'most_frequent';- Ein
StandardScalerzur Merkmals-Skalierung; - Das
GridSearchCV-Objekt als letzter Schritt.
- Ein
- Training der Pipeline mit den Trainingsdaten (
X_train,y_train) mittels.fit()-Methode. - Bewertung der Modellleistung durch Ausgabe des Test-Scores mit
.score(X_test, y_test). - Generierung von Vorhersagen für die Testdaten und Ausgabe der ersten 5 dekodierten Klassennamen mit
label_enc.inverse_transform(). - Ausgabe des besten von
GridSearchCVgefundenen Schätzers mit dem Attribut.best_estimator_.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Herausforderung: Alles Zusammenführen
Swipe um das Menü anzuzeigen
In dieser Aufgabe wird der vollständige im Kurs erlernte Workflow angewendet – von der Datenvorverarbeitung über das Training bis hin zur Modellevaluierung.
Swipe to start coding
Sie arbeiten mit einem Datensatz von Pinguinen. Ihr Ziel ist es, eine vollständige Machine-Learning-Pipeline zu erstellen, die Pinguinarten mithilfe eines K-Nearest Neighbors (KNN)-Modells klassifiziert. Die Pipeline soll die Kodierung kategorialer Merkmale, das Behandeln fehlender Werte, die Merkmals-Skalierung und die Parameterauswahl abdecken.
- Kodierung der Zielvariable
ymit der KlasseLabelEncoder. - Aufteilung des Datensatzes in Trainings- und Testdaten mit
train_test_split()undtest_size=0.33. - Erstellung eines
ColumnTransformernamensct, der einenOneHotEncoderauf die Spalten'island'und'sex'anwendet und alle anderen Spalten unverändert lässt (remainder='passthrough'). - Definition eines Parametergrids
param_gridmit folgenden Werten fürn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], sowie'weights'('uniform','distance') und'p'(1,2). - Erstellung eines
GridSearchCV-Objekts mitKNeighborsClassifier()als Schätzer undparam_gridals Parametergrid. - Aufbau einer Pipeline mit folgenden Schritten in der angegebenen Reihenfolge:
- Der
ColumnTransformer(ct); - Ein
SimpleImputermit der Strategie'most_frequent';- Ein
StandardScalerzur Merkmals-Skalierung; - Das
GridSearchCV-Objekt als letzter Schritt.
- Ein
- Training der Pipeline mit den Trainingsdaten (
X_train,y_train) mittels.fit()-Methode. - Bewertung der Modellleistung durch Ausgabe des Test-Scores mit
.score(X_test, y_test). - Generierung von Vorhersagen für die Testdaten und Ausgabe der ersten 5 dekodierten Klassennamen mit
label_enc.inverse_transform(). - Ausgabe des besten von
GridSearchCVgefundenen Schätzers mit dem Attribut.best_estimator_.
Lösung
Danke für Ihr Feedback!
single