Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Modellierungszusammenfassung | Modellierung
Quizzes & Challenges
Quizzes
Challenges
/
Einführung in das Maschinelle Lernen mit Python

bookModellierungszusammenfassung

Sie wissen nun, wie man ein Modell erstellt, Pipelines verwendet und Hyperparameter abstimmt. Außerdem wurden zwei Evaluierungsmethoden behandelt: Train-Test-Split und Kreuzvalidierung. Der nächste Schritt ist die Kombination von Evaluierung und Abstimmung mit GridSearchCV oder RandomizedSearchCV.

Note
Hinweis

Da unser Datensatz sehr klein ist, verwenden wir das GridSearchCV, aber alles Nachfolgende gilt ebenso für ein RandomizedSearchCV.

Da die Kreuzvalidierung stabiler ist als ein einzelner Train-Test-Split, besteht das Ziel darin, die höchste Kreuzvalidierungsbewertung zu erreichen. GridSearchCV durchsucht die Hyperparameter und findet diejenigen, die diese Bewertung maximieren. Die beste Bewertung wird in .best_score_ gespeichert.

Note
Hinweis

Hyperparameter, die für einen Datensatz am besten funktionieren, generalisiert möglicherweise nicht, wenn neue Daten hinzukommen. Daher kann .best_score_ höher sein als die Leistung des Modells auf vollständig unbekannten Daten.

Ein typischer Arbeitsablauf: Aufteilen in Trainings- und Testdatensatz; Durchführung der Kreuzvalidierung auf dem Trainingsdatensatz zur Modelloptimierung; anschließend Bewertung des optimierten Modells auf dem Testdatensatz zur Messung der realen Leistungsfähigkeit.

Zusammenfassung:

  1. Daten vorverarbeiten;
  2. In Trainings- und Testdatensatz aufteilen;
  3. Kreuzvalidierung auf dem Trainingsdatensatz zur Bestimmung der optimalen Konfiguration verwenden;
  4. Bewertung auf dem Testdatensatz.
Note
Weiterführende Studien

Der dritte Schritt umfasst in der Regel das Testen von mehreren Algorithmen und das Anpassen ihrer Hyperparameter, um die beste Option zu identifizieren. Zur Vereinfachung wurde in diesem Kurs nur ein einzelner Algorithmus verwendet.

Kreuzvalidierung ist nicht immer die beste Option. Bei großen Datensätzen wird die Berechnung der CV-Werte aufwendig, während ein Train-Test-Split durch die große Testmenge stabiler wird.

Große Datensätze werden häufig in Trainings-, Validierungs- und Testdatensätze aufgeteilt. Hyperparameter werden anhand der Leistung auf dem Validierungsdatensatz ausgewählt. Abschließend wird das gewählte Modell auf dem Testdatensatz bewertet, um zu überprüfen, wie gut es generalisiert.

Der Penguins-Datensatz ist klein und umfasst nur 342 Instanzen. Aufgrund dieser begrenzten Größe wird im nächsten Kapitel der Kreuzvalidierungswert zur Bewertung herangezogen.

question mark

Warum ist Kreuzvalidierung insbesondere für das Hyperparameter-Tuning bei kleineren Datensätzen wertvoll, während bei größeren Datensätzen häufig ein Train-Test-Split bevorzugt wird?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 9

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

What is the difference between GridSearchCV and RandomizedSearchCV?

Can you explain how cross-validation works in more detail?

Why is cross-validation preferred for small datasets?

bookModellierungszusammenfassung

Swipe um das Menü anzuzeigen

Sie wissen nun, wie man ein Modell erstellt, Pipelines verwendet und Hyperparameter abstimmt. Außerdem wurden zwei Evaluierungsmethoden behandelt: Train-Test-Split und Kreuzvalidierung. Der nächste Schritt ist die Kombination von Evaluierung und Abstimmung mit GridSearchCV oder RandomizedSearchCV.

Note
Hinweis

Da unser Datensatz sehr klein ist, verwenden wir das GridSearchCV, aber alles Nachfolgende gilt ebenso für ein RandomizedSearchCV.

Da die Kreuzvalidierung stabiler ist als ein einzelner Train-Test-Split, besteht das Ziel darin, die höchste Kreuzvalidierungsbewertung zu erreichen. GridSearchCV durchsucht die Hyperparameter und findet diejenigen, die diese Bewertung maximieren. Die beste Bewertung wird in .best_score_ gespeichert.

Note
Hinweis

Hyperparameter, die für einen Datensatz am besten funktionieren, generalisiert möglicherweise nicht, wenn neue Daten hinzukommen. Daher kann .best_score_ höher sein als die Leistung des Modells auf vollständig unbekannten Daten.

Ein typischer Arbeitsablauf: Aufteilen in Trainings- und Testdatensatz; Durchführung der Kreuzvalidierung auf dem Trainingsdatensatz zur Modelloptimierung; anschließend Bewertung des optimierten Modells auf dem Testdatensatz zur Messung der realen Leistungsfähigkeit.

Zusammenfassung:

  1. Daten vorverarbeiten;
  2. In Trainings- und Testdatensatz aufteilen;
  3. Kreuzvalidierung auf dem Trainingsdatensatz zur Bestimmung der optimalen Konfiguration verwenden;
  4. Bewertung auf dem Testdatensatz.
Note
Weiterführende Studien

Der dritte Schritt umfasst in der Regel das Testen von mehreren Algorithmen und das Anpassen ihrer Hyperparameter, um die beste Option zu identifizieren. Zur Vereinfachung wurde in diesem Kurs nur ein einzelner Algorithmus verwendet.

Kreuzvalidierung ist nicht immer die beste Option. Bei großen Datensätzen wird die Berechnung der CV-Werte aufwendig, während ein Train-Test-Split durch die große Testmenge stabiler wird.

Große Datensätze werden häufig in Trainings-, Validierungs- und Testdatensätze aufgeteilt. Hyperparameter werden anhand der Leistung auf dem Validierungsdatensatz ausgewählt. Abschließend wird das gewählte Modell auf dem Testdatensatz bewertet, um zu überprüfen, wie gut es generalisiert.

Der Penguins-Datensatz ist klein und umfasst nur 342 Instanzen. Aufgrund dieser begrenzten Größe wird im nächsten Kapitel der Kreuzvalidierungswert zur Bewertung herangezogen.

question mark

Warum ist Kreuzvalidierung insbesondere für das Hyperparameter-Tuning bei kleineren Datensätzen wertvoll, während bei größeren Datensätzen häufig ein Train-Test-Split bevorzugt wird?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 9
some-alt