Overfitting en Regularisatie
Zoals aangetoond in het vorige hoofdstuk, kun je met PolynomialFeatures een complexe beslissingsgrens creëren. Tweede-graads polynoomkenmerken kunnen zelfs de grenzen produceren die in de onderstaande afbeelding worden getoond:
En dit is slechts een graad van twee. Een hogere graad kan zelfs complexere vormen opleveren. Maar dit brengt een probleem met zich mee. De beslissingsgrens die door Logistische Regressie wordt opgebouwd, kan te ingewikkeld worden, waardoor het model overfit.
Overfitting betekent dat het model, in plaats van algemene patronen in de data te leren, een zeer complexe beslissingsgrens opbouwt om elk trainingsvoorbeeld te behandelen. Toch presteert het model minder goed op data die het nog nooit heeft gezien, terwijl goed presteren op onbekende data juist een primaire taak is van een machine learning model.
Regularisatie pakt het probleem van overfitting aan. In feite wordt l2-regularisatie standaard gebruikt in de LogisticRegression-klasse. Je moet echter configureren hoe sterk het model geregulariseerd moet worden. Dit wordt geregeld met de parameter C:



- hogere
C- minder regularisatie, meer overfitting; - lagere
C- sterkere regularisatie, minder overfitting (maar mogelijk underfitting).
Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.
Bij het gebruik van Logistische Regressie met regularisatie is het essentieel om je data te schalen. Regularisatie straft grote coëfficiënten af, en zonder schaling kunnen kenmerken met grotere waarden de resultaten verstoren. In feite is schalen bijna altijd noodzakelijk – zelfs wanneer regularisatie niet wordt toegepast.
De LogisticRegression-klasse bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).
Als u zowel PolynomialFeatures als StandardScaler gebruikt, zorg er dan voor dat u StandardScaler na het genereren van de polynomiale features toepast. Het schalen van de data voor de polynomiale expansie kan de resulterende features verstoren, omdat bewerkingen zoals kwadrateren of vermenigvuldigen van reeds gestandaardiseerde waarden kunnen leiden tot onnatuurlijke verdelingen.
1. Kies de ONJUISTE bewering.
2. Wat is de juiste volgorde om data voor te bewerken
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 4.17
Overfitting en Regularisatie
Veeg om het menu te tonen
Zoals aangetoond in het vorige hoofdstuk, kun je met PolynomialFeatures een complexe beslissingsgrens creëren. Tweede-graads polynoomkenmerken kunnen zelfs de grenzen produceren die in de onderstaande afbeelding worden getoond:
En dit is slechts een graad van twee. Een hogere graad kan zelfs complexere vormen opleveren. Maar dit brengt een probleem met zich mee. De beslissingsgrens die door Logistische Regressie wordt opgebouwd, kan te ingewikkeld worden, waardoor het model overfit.
Overfitting betekent dat het model, in plaats van algemene patronen in de data te leren, een zeer complexe beslissingsgrens opbouwt om elk trainingsvoorbeeld te behandelen. Toch presteert het model minder goed op data die het nog nooit heeft gezien, terwijl goed presteren op onbekende data juist een primaire taak is van een machine learning model.
Regularisatie pakt het probleem van overfitting aan. In feite wordt l2-regularisatie standaard gebruikt in de LogisticRegression-klasse. Je moet echter configureren hoe sterk het model geregulariseerd moet worden. Dit wordt geregeld met de parameter C:



- hogere
C- minder regularisatie, meer overfitting; - lagere
C- sterkere regularisatie, minder overfitting (maar mogelijk underfitting).
Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.
Bij het gebruik van Logistische Regressie met regularisatie is het essentieel om je data te schalen. Regularisatie straft grote coëfficiënten af, en zonder schaling kunnen kenmerken met grotere waarden de resultaten verstoren. In feite is schalen bijna altijd noodzakelijk – zelfs wanneer regularisatie niet wordt toegepast.
De LogisticRegression-klasse bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).
Als u zowel PolynomialFeatures als StandardScaler gebruikt, zorg er dan voor dat u StandardScaler na het genereren van de polynomiale features toepast. Het schalen van de data voor de polynomiale expansie kan de resulterende features verstoren, omdat bewerkingen zoals kwadrateren of vermenigvuldigen van reeds gestandaardiseerde waarden kunnen leiden tot onnatuurlijke verdelingen.
1. Kies de ONJUISTE bewering.
2. Wat is de juiste volgorde om data voor te bewerken
Bedankt voor je feedback!