Leer Overfitting en Regularisatie | Logistische Regressie

Zoals aangetoond in het vorige hoofdstuk, kun je met PolynomialFeatures een complexe beslissingsgrens creëren. Tweede-graads polynoomkenmerken kunnen zelfs de grenzen produceren die in de onderstaande afbeelding worden getoond:

En dit is slechts een graad van twee. Een hogere graad kan zelfs complexere vormen opleveren. Maar dit brengt een probleem met zich mee. De beslissingsgrens die door Logistische Regressie wordt opgebouwd, kan te ingewikkeld worden, waardoor het model overfit.

Overfitting betekent dat het model, in plaats van algemene patronen in de data te leren, een zeer complexe beslissingsgrens opbouwt om elk trainingsvoorbeeld te behandelen. Toch presteert het model minder goed op data die het nog nooit heeft gezien, terwijl goed presteren op onbekende data juist een primaire taak is van een machine learning model.

Regularisatie pakt het probleem van overfitting aan. In feite wordt l2-regularisatie standaard gebruikt in de LogisticRegression-klasse. Je moet echter configureren hoe sterk het model geregulariseerd moet worden. Dit wordt geregeld met de parameter C:

hogere C - minder regularisatie, meer overfitting;
lagere C - sterkere regularisatie, minder overfitting (maar mogelijk underfitting).

Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.

Opmerking

Bij het gebruik van Logistische Regressie met regularisatie is het essentieel om je data te schalen. Regularisatie straft grote coëfficiënten af, en zonder schaling kunnen kenmerken met grotere waarden de resultaten verstoren. In feite is schalen bijna altijd noodzakelijk – zelfs wanneer regularisatie niet wordt toegepast.

De LogisticRegression-klasse bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).

Opmerking

Als u zowel PolynomialFeatures als StandardScaler gebruikt, zorg er dan voor dat u StandardScaler na het genereren van de polynomiale features toepast. Het schalen van de data voor de polynomiale expansie kan de resulterende features verstoren, omdat bewerkingen zoals kwadrateren of vermenigvuldigen van reeds gestandaardiseerde waarden kunnen leiden tot onnatuurlijke verdelingen.

1. Kies de ONJUISTE bewering.

2. Wat is de juiste volgorde om data voor te bewerken

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 5

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4.17

Veeg om het menu te tonen

hogere C - minder regularisatie, meer overfitting;
lagere C - sterkere regularisatie, minder overfitting (maar mogelijk underfitting).

Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.

Opmerking

De LogisticRegression-klasse bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).

Opmerking

1. Kies de ONJUISTE bewering.

2. Wat is de juiste volgorde om data voor te bewerken

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 5