Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Herausforderung: Alles Zusammenführen | Modellierung
ML-Einführung Mit Scikit-Learn

bookHerausforderung: Alles Zusammenführen

In dieser Aufgabe wird der vollständige im Kurs erlernte Workflow angewendet – von der Datenvorverarbeitung über das Training bis hin zur Modellevaluierung.

Aufgabe

Swipe to start coding

Sie arbeiten mit einem Datensatz von Pinguinen. Ihr Ziel ist es, eine vollständige Machine-Learning-Pipeline zu erstellen, die Pinguinarten mithilfe eines K-Nearest Neighbors (KNN)-Modells klassifiziert. Die Pipeline soll die Kodierung kategorialer Merkmale, das Behandeln fehlender Werte, die Merkmals-Skalierung und die Parameterauswahl abdecken.

  1. Kodierung der Zielvariable y mit der Klasse LabelEncoder.
  2. Aufteilung des Datensatzes in Trainings- und Testdaten mit train_test_split() und test_size=0.33.
  3. Erstellung eines ColumnTransformer namens ct, der einen OneHotEncoder auf die Spalten 'island' und 'sex' anwendet und alle anderen Spalten unverändert lässt (remainder='passthrough').
  4. Definition eines Parametergrids param_grid mit folgenden Werten für n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], sowie 'weights' ('uniform', 'distance') und 'p' (1, 2).
  5. Erstellung eines GridSearchCV-Objekts mit KNeighborsClassifier() als Schätzer und param_grid als Parametergrid.
  6. Aufbau einer Pipeline mit folgenden Schritten in der angegebenen Reihenfolge:
  • Der ColumnTransformer (ct);
  • Ein SimpleImputer mit der Strategie 'most_frequent';
    • Ein StandardScaler zur Merkmals-Skalierung;
    • Das GridSearchCV-Objekt als letzter Schritt.
  1. Training der Pipeline mit den Trainingsdaten (X_train, y_train) mittels .fit()-Methode.
  2. Bewertung der Modellleistung durch Ausgabe des Test-Scores mit .score(X_test, y_test).
  3. Generierung von Vorhersagen für die Testdaten und Ausgabe der ersten 5 dekodierten Klassennamen mit label_enc.inverse_transform().
  4. Ausgabe des besten von GridSearchCV gefundenen Schätzers mit dem Attribut .best_estimator_.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 10
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the steps involved in the full workflow shown here?

What is the purpose of each tool or method depicted in the images?

Can you provide a summary of how these components work together in a machine learning project?

close

Awesome!

Completion rate improved to 3.13

bookHerausforderung: Alles Zusammenführen

Swipe um das Menü anzuzeigen

In dieser Aufgabe wird der vollständige im Kurs erlernte Workflow angewendet – von der Datenvorverarbeitung über das Training bis hin zur Modellevaluierung.

Aufgabe

Swipe to start coding

Sie arbeiten mit einem Datensatz von Pinguinen. Ihr Ziel ist es, eine vollständige Machine-Learning-Pipeline zu erstellen, die Pinguinarten mithilfe eines K-Nearest Neighbors (KNN)-Modells klassifiziert. Die Pipeline soll die Kodierung kategorialer Merkmale, das Behandeln fehlender Werte, die Merkmals-Skalierung und die Parameterauswahl abdecken.

  1. Kodierung der Zielvariable y mit der Klasse LabelEncoder.
  2. Aufteilung des Datensatzes in Trainings- und Testdaten mit train_test_split() und test_size=0.33.
  3. Erstellung eines ColumnTransformer namens ct, der einen OneHotEncoder auf die Spalten 'island' und 'sex' anwendet und alle anderen Spalten unverändert lässt (remainder='passthrough').
  4. Definition eines Parametergrids param_grid mit folgenden Werten für n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], sowie 'weights' ('uniform', 'distance') und 'p' (1, 2).
  5. Erstellung eines GridSearchCV-Objekts mit KNeighborsClassifier() als Schätzer und param_grid als Parametergrid.
  6. Aufbau einer Pipeline mit folgenden Schritten in der angegebenen Reihenfolge:
  • Der ColumnTransformer (ct);
  • Ein SimpleImputer mit der Strategie 'most_frequent';
    • Ein StandardScaler zur Merkmals-Skalierung;
    • Das GridSearchCV-Objekt als letzter Schritt.
  1. Training der Pipeline mit den Trainingsdaten (X_train, y_train) mittels .fit()-Methode.
  2. Bewertung der Modellleistung durch Ausgabe des Test-Scores mit .score(X_test, y_test).
  3. Generierung von Vorhersagen für die Testdaten und Ausgabe der ersten 5 dekodierten Klassennamen mit label_enc.inverse_transform().
  4. Ausgabe des besten von GridSearchCV gefundenen Schätzers mit dem Attribut .best_estimator_.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 10
single

single

some-alt