Lernen Überanpassung | Auswahl des Besten Modells

Overfitting

Betrachten Sie die beiden Regressionslinien unten. Welche ist besser?

Die Kennzahlen deuten darauf hin, dass das zweite Modell besser ist, daher verwenden wir es, um X_new = [0.2, 0.5, 2.7] vorherzusagen. Nach dem Vergleich der Vorhersagen mit den tatsächlichen Werten schneidet jedoch das erste Modell besser ab.

Dies geschieht, weil das zweite Modell overfitted ist — es ist zu komplex und passt sich den Trainingsdaten zu genau an, wodurch es nicht auf neue Fälle verallgemeinert werden kann.

Underfitting

Underfitting tritt auf, wenn ein Modell zu einfach ist, um selbst die Trainingsdaten angemessen abzubilden, was ebenfalls zu schlechten Vorhersagen bei unbekannten Daten führt.

Es ist möglich, visuell zu beurteilen, ob das Modell underfittet oder overfittet.

Da hochdimensionale Modelle nicht visualisiert werden können, ist eine alternative Methode zur Erkennung von Overfitting oder Underfitting erforderlich.

Train-Test-Split

Um die Leistung auf unbekannten Daten abzuschätzen, wird der Datensatz in ein Trainings- und ein Testset mit bekannten Zielwerten aufgeteilt.

Das Training erfolgt auf dem Trainingsset. Metriken werden sowohl für das Trainings- als auch für das Testset berechnet, um die Leistung zu vergleichen.

Die Aufteilung muss zufällig erfolgen. Typischerweise werden 20–30% für das Testset und 70–80% für das Training verwendet. Scikit-learn bietet hierfür eine einfache Möglichkeit.

Zum Beispiel kann das Trainingsset im Verhältnis 70 % Training/30 % Test wie folgt aufgeteilt werden:

from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

War alles klar?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 5.26

Swipe um das Menü anzuzeigen