Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Overfitting en Regularisatie | Logistische Regressie
Classificatie met Python

bookOverfitting en Regularisatie

Zoals aangetoond in het vorige hoofdstuk, kun je met PolynomialFeatures een complexe beslissingsgrens creëren. Tweede-graads polynoomkenmerken kunnen zelfs de grenzen produceren die in de onderstaande afbeelding worden getoond:

En dit is slechts een graad van twee. Een hogere graad kan zelfs complexere vormen opleveren. Maar dit brengt een probleem met zich mee. De beslissingsgrens die door Logistische Regressie wordt opgebouwd, kan te ingewikkeld worden, waardoor het model overfit.

Overfitting betekent dat het model, in plaats van algemene patronen in de data te leren, een zeer complexe beslissingsgrens opbouwt om elk trainingsvoorbeeld te behandelen. Toch presteert het model minder goed op data die het nog nooit heeft gezien, terwijl goed presteren op onbekende data juist een primaire taak is van een machine learning model.

Regularisatie pakt het probleem van overfitting aan. In feite wordt l2-regularisatie standaard gebruikt in de LogisticRegression-klasse. Je moet echter configureren hoe sterk het model geregulariseerd moet worden. Dit wordt geregeld met de parameter C:

carousel-imgcarousel-imgcarousel-img
  • hogere C - minder regularisatie, meer overfitting;
  • lagere C - sterkere regularisatie, minder overfitting (maar mogelijk underfitting).

Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.

Note
Opmerking

Bij het gebruik van Logistische Regressie met regularisatie is het essentieel om je data te schalen. Regularisatie straft grote coëfficiënten af, en zonder schaling kunnen kenmerken met grotere waarden de resultaten verstoren. In feite is schalen bijna altijd noodzakelijk – zelfs wanneer regularisatie niet wordt toegepast.

De LogisticRegression-klasse bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).

Note
Opmerking

Als u zowel PolynomialFeatures als StandardScaler gebruikt, zorg er dan voor dat u StandardScaler na het genereren van de polynomiale features toepast. Het schalen van de data voor de polynomiale expansie kan de resulterende features verstoren, omdat bewerkingen zoals kwadrateren of vermenigvuldigen van reeds gestandaardiseerde waarden kunnen leiden tot onnatuurlijke verdelingen.

1. Kies de ONJUISTE bewering.

2. Wat is de juiste volgorde om data voor te bewerken

question mark

Kies de ONJUISTE bewering.

Select the correct answer

question mark

Wat is de juiste volgorde om data voor te bewerken

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4.17

bookOverfitting en Regularisatie

Veeg om het menu te tonen

Zoals aangetoond in het vorige hoofdstuk, kun je met PolynomialFeatures een complexe beslissingsgrens creëren. Tweede-graads polynoomkenmerken kunnen zelfs de grenzen produceren die in de onderstaande afbeelding worden getoond:

En dit is slechts een graad van twee. Een hogere graad kan zelfs complexere vormen opleveren. Maar dit brengt een probleem met zich mee. De beslissingsgrens die door Logistische Regressie wordt opgebouwd, kan te ingewikkeld worden, waardoor het model overfit.

Overfitting betekent dat het model, in plaats van algemene patronen in de data te leren, een zeer complexe beslissingsgrens opbouwt om elk trainingsvoorbeeld te behandelen. Toch presteert het model minder goed op data die het nog nooit heeft gezien, terwijl goed presteren op onbekende data juist een primaire taak is van een machine learning model.

Regularisatie pakt het probleem van overfitting aan. In feite wordt l2-regularisatie standaard gebruikt in de LogisticRegression-klasse. Je moet echter configureren hoe sterk het model geregulariseerd moet worden. Dit wordt geregeld met de parameter C:

carousel-imgcarousel-imgcarousel-img
  • hogere C - minder regularisatie, meer overfitting;
  • lagere C - sterkere regularisatie, minder overfitting (maar mogelijk underfitting).

Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.

Note
Opmerking

Bij het gebruik van Logistische Regressie met regularisatie is het essentieel om je data te schalen. Regularisatie straft grote coëfficiënten af, en zonder schaling kunnen kenmerken met grotere waarden de resultaten verstoren. In feite is schalen bijna altijd noodzakelijk – zelfs wanneer regularisatie niet wordt toegepast.

De LogisticRegression-klasse bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).

Note
Opmerking

Als u zowel PolynomialFeatures als StandardScaler gebruikt, zorg er dan voor dat u StandardScaler na het genereren van de polynomiale features toepast. Het schalen van de data voor de polynomiale expansie kan de resulterende features verstoren, omdat bewerkingen zoals kwadrateren of vermenigvuldigen van reeds gestandaardiseerde waarden kunnen leiden tot onnatuurlijke verdelingen.

1. Kies de ONJUISTE bewering.

2. Wat is de juiste volgorde om data voor te bewerken

question mark

Kies de ONJUISTE bewering.

Select the correct answer

question mark

Wat is de juiste volgorde om data voor te bewerken

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 5
some-alt