Overfitting og Regularisering
Som demonstreret i det forrige kapitel, kan du ved hjælp af PolynomialFeatures
oprette en kompleks beslutningsgrænse. Anden-gradspolynomier kan endda skabe de grænser, der vises på billedet nedenfor:
Og det er kun en grad på to. En højere grad kan give endnu mere komplekse former. Men der er et problem med dette. Beslutningsgrænsen, der oprettes af logistisk regression, kan blive for kompliceret, hvilket får modellen til at overfitte.
Overfitting opstår, når modellen i stedet for at lære generelle mønstre i dataene, opbygger en meget kompleks beslutningsgrænse for at håndtere hver enkelt træningsinstans. Alligevel præsterer den ikke lige så godt på data, den aldrig har set før, selvom det at præstere godt på usete data er en primær opgave for en maskinlæringsmodel.
Regulering tackler problemet med overfitting. Faktisk anvendes l2-regulering som standard i LogisticRegression
-klassen. Men du skal konfigurere, hvor kraftigt modellen skal reguleres. Dette styres af parameteren C
:



- højere
C
– lavere regularisering, mere overfitting; - lavere
C
– stærkere regularisering, mindre overfitting (men muligvis underfitting).
Hvilke værdier af C
der resulterer i en god model afhænger af datasættet, så det er bedst at vælge det ved hjælp af GridSearchCV
.
Ved brug af logistisk regression med regularisering er det vigtigt at skalere dine data. Regularisering straffer store koefficienter, og uden skalering kan funktioner med større værdier forvride resultaterne. Faktisk er skalering næsten altid nødvendig – selv når regularisering ikke anvendes.
LogisticRegression
-klassen inkluderer som standard regularisering, så du bør enten fjerne regularisering (ved at sætte penalty=None
) eller skalere dataene (f.eks. ved brug af StandardScaler
).
Hvis du bruger både PolynomialFeatures
og StandardScaler
, skal du sørge for at anvende StandardScaler
efter genereringen af de polynomielle features. Skalering af data før polynomiel udvidelse kan forvride de resulterende features, da operationer som at kvadrere eller multiplicere allerede standardiserede værdier kan føre til unaturlige fordelinger.
1. Vælg den FORKERTE påstand.
2. Hvad er den korrekte rækkefølge for at forbehandle data
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain how to use GridSearchCV to find the best C value?
What is the difference between overfitting and underfitting?
How does regularization help prevent overfitting in logistic regression?
Awesome!
Completion rate improved to 4.17
Overfitting og Regularisering
Stryg for at vise menuen
Som demonstreret i det forrige kapitel, kan du ved hjælp af PolynomialFeatures
oprette en kompleks beslutningsgrænse. Anden-gradspolynomier kan endda skabe de grænser, der vises på billedet nedenfor:
Og det er kun en grad på to. En højere grad kan give endnu mere komplekse former. Men der er et problem med dette. Beslutningsgrænsen, der oprettes af logistisk regression, kan blive for kompliceret, hvilket får modellen til at overfitte.
Overfitting opstår, når modellen i stedet for at lære generelle mønstre i dataene, opbygger en meget kompleks beslutningsgrænse for at håndtere hver enkelt træningsinstans. Alligevel præsterer den ikke lige så godt på data, den aldrig har set før, selvom det at præstere godt på usete data er en primær opgave for en maskinlæringsmodel.
Regulering tackler problemet med overfitting. Faktisk anvendes l2-regulering som standard i LogisticRegression
-klassen. Men du skal konfigurere, hvor kraftigt modellen skal reguleres. Dette styres af parameteren C
:



- højere
C
– lavere regularisering, mere overfitting; - lavere
C
– stærkere regularisering, mindre overfitting (men muligvis underfitting).
Hvilke værdier af C
der resulterer i en god model afhænger af datasættet, så det er bedst at vælge det ved hjælp af GridSearchCV
.
Ved brug af logistisk regression med regularisering er det vigtigt at skalere dine data. Regularisering straffer store koefficienter, og uden skalering kan funktioner med større værdier forvride resultaterne. Faktisk er skalering næsten altid nødvendig – selv når regularisering ikke anvendes.
LogisticRegression
-klassen inkluderer som standard regularisering, så du bør enten fjerne regularisering (ved at sætte penalty=None
) eller skalere dataene (f.eks. ved brug af StandardScaler
).
Hvis du bruger både PolynomialFeatures
og StandardScaler
, skal du sørge for at anvende StandardScaler
efter genereringen af de polynomielle features. Skalering af data før polynomiel udvidelse kan forvride de resulterende features, da operationer som at kvadrere eller multiplicere allerede standardiserede værdier kan føre til unaturlige fordelinger.
1. Vælg den FORKERTE påstand.
2. Hvad er den korrekte rækkefølge for at forbehandle data
Tak for dine kommentarer!