Kursinhalt
Klassifikation mit Python
Klassifikation mit Python
Überanpassung. Regularisierung
Wie im vorherigen Kapitel gezeigt, können Sie mit PolynomialFeatures
eine ziemlich komplexe Entscheidungsgrenze erhalten. Polynomiale Merkmale zweiten Grades können Ihnen sogar die Grenzen im untenstehenden Bild verschaffen.
Und es ist nur ein Grad von zwei. Ein höherer Grad kann noch komplexere Formen ergeben. Aber es gibt ein Problem damit. Die durch die logistische Regression aufgebaute Entscheidungsgrenze kann zu kompliziert werden, was dazu führt, dass das Modell überanpasst wird.
Überanpassung tritt auf, wenn das Modell, anstatt allgemeine Muster in den Daten zu lernen, eine sehr komplexe Entscheidungsgrenze erstellt, um jede Trainingsinstanz zu bewältigen. Dennoch schneidet es bei Daten, die es noch nie gesehen hat, nicht so gut ab, während das gute Abschneiden bei ungesehenen Daten eine Hauptaufgabe des Machine-Learning-Modells ist.
Die Regularisierung bekämpft das Problem des Overfittings. Tatsächlich wird ℓ2-Regularisierung standardmäßig in der LogisticRegression
-Klasse verwendet. Aber Sie müssen konfigurieren, wie stark das Modell regularisiert werden soll. Dies wird durch einen C
-Parameter gesteuert.
- größeres
C
– geringere Regularisierung, mehr Overfitting; - kleineres
C
– stärkere Regularisierung, weniger Overfitting (aber möglicherweise Underfitting).



Welche Werte von C
zu einem guten Modell führen, hängt vom Datensatz ab, daher ist es besser, ihn mit GridSearchCV
auszuwählen.
Hinweis
Wenn Sie eine logistische Regression mit Regularisierung erstellen, müssen Sie die Daten skalieren.
Die LogisticRegression
-Klasse enthält standardmäßig eine Regularisierung, daher sollten Sie entweder die Regularisierung entfernen (indem Sie penalty=None
setzen) oder die Daten skalieren (z.B. mit StandardScaler
).
Hinweis
Wenn Sie sowohl
PolynomialFeatures
als auchStandardScaler
für die Vorverarbeitung verwenden, sollte derStandardScaler
nach denPolynomialFeatures
angewendet werden. Im Allgemeinen möchten Sie denStandardScaler
anwenden, wenn alle anderen Änderungen an den Merkmalen abgeschlossen sind.
1. Wählen Sie die FALSCHE Aussage.
2. Was ist die richtige Reihenfolge zur Datenvorverarbeitung.
Danke für Ihr Feedback!