Overfitting en Regularisatie
Zoals aangetoond in het vorige hoofdstuk, kun je met PolynomialFeatures een complexe beslissingsgrens creëren. Tweede-graads polynoomkenmerken kunnen zelfs de grenzen produceren die in de onderstaande afbeelding worden getoond:
En dit is slechts een graad van twee. Een hogere graad kan zelfs complexere vormen opleveren. Maar hier zit een probleem aan vast. De beslissingsgrens die door Logistische Regressie wordt opgebouwd, kan te ingewikkeld worden, waardoor het model overfit.
Overfitting treedt op wanneer het model, in plaats van algemene patronen in de data te leren, een zeer complexe beslissingsgrens opbouwt om elk trainingsvoorbeeld te verwerken. Toch presteert het model minder goed op data die het nog nooit heeft gezien, terwijl goed presteren op onbekende data juist een primaire taak is van een machine learning-model.
Regularisatie pakt het probleem van overfitting aan. In feite wordt l2-regularisatie standaard gebruikt in de LogisticRegression-klasse. Maar je moet configureren hoe sterk het model geregulariseerd moet worden. Dit wordt geregeld door de parameter C:



- hogere
C- lagere regularisatie, meer overfitting; - lagere
C- sterkere regularisatie, minder overfitting (maar mogelijk onderfitting).
Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.
Bij het gebruik van Logistische Regressie met regularisatie is het essentieel om je data te schalen. Regularisatie straft grote coëfficiënten af, en zonder schaling kunnen kenmerken met grotere waarden de resultaten verstoren. In feite is schalen bijna altijd noodzakelijk - zelfs wanneer regularisatie niet wordt toegepast.
De klasse LogisticRegression bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).
Als u zowel PolynomialFeatures als StandardScaler gebruikt, zorg er dan voor dat u StandardScaler toepast na het genereren van de polynomiale features. Het schalen van de data voor polynomiale expansie kan de resulterende features verstoren, omdat bewerkingen zoals kwadrateren of vermenigvuldigen van reeds gestandaardiseerde waarden kunnen leiden tot onnatuurlijke verdelingen.
1. Kies de ONJUISTE uitspraak.
2. Wat is de juiste volgorde om data te preprocessen
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Geweldig!
Completion tarief verbeterd naar 3.33
Overfitting en Regularisatie
Veeg om het menu te tonen
Zoals aangetoond in het vorige hoofdstuk, kun je met PolynomialFeatures een complexe beslissingsgrens creëren. Tweede-graads polynoomkenmerken kunnen zelfs de grenzen produceren die in de onderstaande afbeelding worden getoond:
En dit is slechts een graad van twee. Een hogere graad kan zelfs complexere vormen opleveren. Maar hier zit een probleem aan vast. De beslissingsgrens die door Logistische Regressie wordt opgebouwd, kan te ingewikkeld worden, waardoor het model overfit.
Overfitting treedt op wanneer het model, in plaats van algemene patronen in de data te leren, een zeer complexe beslissingsgrens opbouwt om elk trainingsvoorbeeld te verwerken. Toch presteert het model minder goed op data die het nog nooit heeft gezien, terwijl goed presteren op onbekende data juist een primaire taak is van een machine learning-model.
Regularisatie pakt het probleem van overfitting aan. In feite wordt l2-regularisatie standaard gebruikt in de LogisticRegression-klasse. Maar je moet configureren hoe sterk het model geregulariseerd moet worden. Dit wordt geregeld door de parameter C:



- hogere
C- lagere regularisatie, meer overfitting; - lagere
C- sterkere regularisatie, minder overfitting (maar mogelijk onderfitting).
Welke waarden van C een goed model opleveren, hangt af van de dataset. Het is daarom beter om deze te kiezen met behulp van GridSearchCV.
Bij het gebruik van Logistische Regressie met regularisatie is het essentieel om je data te schalen. Regularisatie straft grote coëfficiënten af, en zonder schaling kunnen kenmerken met grotere waarden de resultaten verstoren. In feite is schalen bijna altijd noodzakelijk - zelfs wanneer regularisatie niet wordt toegepast.
De klasse LogisticRegression bevat standaard regularisatie, dus u dient regularisatie te verwijderen (door penalty=None in te stellen) of de data te schalen (bijvoorbeeld met StandardScaler).
Als u zowel PolynomialFeatures als StandardScaler gebruikt, zorg er dan voor dat u StandardScaler toepast na het genereren van de polynomiale features. Het schalen van de data voor polynomiale expansie kan de resulterende features verstoren, omdat bewerkingen zoals kwadrateren of vermenigvuldigen van reeds gestandaardiseerde waarden kunnen leiden tot onnatuurlijke verdelingen.
1. Kies de ONJUISTE uitspraak.
2. Wat is de juiste volgorde om data te preprocessen
Bedankt voor je feedback!