Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Overfitting und Regularisierung | Logistische Regression
Klassifikation mit Python

bookOverfitting und Regularisierung

Wie im vorherigen Kapitel gezeigt, kann mit PolynomialFeatures eine komplexe Entscheidungsgrenze erstellt werden. Polynomiale Merkmale zweiten Grades können sogar die unten abgebildeten Grenzen erzeugen:

Und das ist nur ein Grad von zwei. Ein höherer Grad kann sogar noch komplexere Formen erzeugen. Doch dabei gibt es ein Problem. Die durch die logistische Regression erzeugte Entscheidungsgrenze kann zu kompliziert werden, was zum Overfitting des Modells führt.

Overfitting bedeutet, dass das Modell anstatt allgemeine Muster in den Daten zu lernen, eine sehr komplexe Entscheidungsgrenze erstellt, um jede Trainingsinstanz abzudecken. Dennoch erzielt es auf bisher unbekannten Daten keine guten Ergebnisse, obwohl genau dies die Hauptaufgabe eines Machine-Learning-Modells ist.

Die Regularisierung adressiert das Problem des Overfittings. Tatsächlich wird in der Klasse LogisticRegression standardmäßig die l2-Regularisierung verwendet. Allerdings muss konfiguriert werden, wie stark das Modell regularisiert werden soll. Dies wird durch den Parameter C gesteuert:

carousel-imgcarousel-imgcarousel-img
  • Größeres C – geringere Regularisierung, mehr Overfitting;
  • Kleineres C – stärkere Regularisierung, weniger Overfitting (aber möglicherweise Underfitting).

Welche Werte von C zu einem guten Modell führen, hängt vom Datensatz ab. Daher ist es besser, diese mit GridSearchCV auszuwählen.

Note
Hinweis

Bei der Verwendung von logistischer Regression mit Regularisierung ist es entscheidend, die Daten zu skalieren. Die Regularisierung bestraft große Koeffizienten, und ohne Skalierung können Merkmale mit größeren Werten das Ergebnis verzerren. Tatsächlich ist Skalierung fast immer notwendig – selbst wenn keine Regularisierung verwendet wird.

Die Klasse LogisticRegression beinhaltet standardmäßig Regularisierung. Daher sollte entweder die Regularisierung entfernt werden (durch Setzen von penalty=None) oder die Daten sollten skaliert werden (z. B. mit StandardScaler).

Note
Hinweis

Wenn sowohl PolynomialFeatures als auch StandardScaler verwendet werden, sollte StandardScaler nach der Erzeugung der polynomialen Merkmale angewendet werden. Das Skalieren der Daten vor der polynomiellen Erweiterung kann die resultierenden Merkmale verzerren, da Operationen wie das Quadrieren oder Multiplizieren bereits standardisierter Werte zu unnatürlichen Verteilungen führen können.

1. Wählen Sie die FALSCHE Aussage aus.

2. Was ist die korrekte Reihenfolge zur Vorverarbeitung von Daten

question mark

Wählen Sie die FALSCHE Aussage aus.

Select the correct answer

question mark

Was ist die korrekte Reihenfolge zur Vorverarbeitung von Daten

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4.17

bookOverfitting und Regularisierung

Swipe um das Menü anzuzeigen

Wie im vorherigen Kapitel gezeigt, kann mit PolynomialFeatures eine komplexe Entscheidungsgrenze erstellt werden. Polynomiale Merkmale zweiten Grades können sogar die unten abgebildeten Grenzen erzeugen:

Und das ist nur ein Grad von zwei. Ein höherer Grad kann sogar noch komplexere Formen erzeugen. Doch dabei gibt es ein Problem. Die durch die logistische Regression erzeugte Entscheidungsgrenze kann zu kompliziert werden, was zum Overfitting des Modells führt.

Overfitting bedeutet, dass das Modell anstatt allgemeine Muster in den Daten zu lernen, eine sehr komplexe Entscheidungsgrenze erstellt, um jede Trainingsinstanz abzudecken. Dennoch erzielt es auf bisher unbekannten Daten keine guten Ergebnisse, obwohl genau dies die Hauptaufgabe eines Machine-Learning-Modells ist.

Die Regularisierung adressiert das Problem des Overfittings. Tatsächlich wird in der Klasse LogisticRegression standardmäßig die l2-Regularisierung verwendet. Allerdings muss konfiguriert werden, wie stark das Modell regularisiert werden soll. Dies wird durch den Parameter C gesteuert:

carousel-imgcarousel-imgcarousel-img
  • Größeres C – geringere Regularisierung, mehr Overfitting;
  • Kleineres C – stärkere Regularisierung, weniger Overfitting (aber möglicherweise Underfitting).

Welche Werte von C zu einem guten Modell führen, hängt vom Datensatz ab. Daher ist es besser, diese mit GridSearchCV auszuwählen.

Note
Hinweis

Bei der Verwendung von logistischer Regression mit Regularisierung ist es entscheidend, die Daten zu skalieren. Die Regularisierung bestraft große Koeffizienten, und ohne Skalierung können Merkmale mit größeren Werten das Ergebnis verzerren. Tatsächlich ist Skalierung fast immer notwendig – selbst wenn keine Regularisierung verwendet wird.

Die Klasse LogisticRegression beinhaltet standardmäßig Regularisierung. Daher sollte entweder die Regularisierung entfernt werden (durch Setzen von penalty=None) oder die Daten sollten skaliert werden (z. B. mit StandardScaler).

Note
Hinweis

Wenn sowohl PolynomialFeatures als auch StandardScaler verwendet werden, sollte StandardScaler nach der Erzeugung der polynomialen Merkmale angewendet werden. Das Skalieren der Daten vor der polynomiellen Erweiterung kann die resultierenden Merkmale verzerren, da Operationen wie das Quadrieren oder Multiplizieren bereits standardisierter Werte zu unnatürlichen Verteilungen führen können.

1. Wählen Sie die FALSCHE Aussage aus.

2. Was ist die korrekte Reihenfolge zur Vorverarbeitung von Daten

question mark

Wählen Sie die FALSCHE Aussage aus.

Select the correct answer

question mark

Was ist die korrekte Reihenfolge zur Vorverarbeitung von Daten

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 5
some-alt