Lære Overfitting og Regularisering

Stryg for at vise menuen

Som demonstreret i det forrige kapitel, kan du ved hjælp af PolynomialFeatures oprette en kompleks beslutningsgrænse. Anden-gradspolynomier kan endda skabe de grænser, der vises på billedet nedenfor:

Og det er kun en grad på to. En højere grad kan give endnu mere komplekse former. Men der er et problem med dette. Beslutningsgrænsen, der oprettes af logistisk regression, kan blive for kompliceret, hvilket får modellen til at overfitte.

Overfitting opstår, når modellen i stedet for at lære generelle mønstre i dataene, opbygger en meget kompleks beslutningsgrænse for at håndtere hver enkelt træningsinstans. Alligevel præsterer den ikke lige så godt på data, den aldrig har set før, selvom det at præstere godt på usete data er en primær opgave for en maskinlæringsmodel.

Regulering tackler problemet med overfitting. Faktisk anvendes l2-regulering som standard i LogisticRegression-klassen. Men du skal konfigurere, hvor kraftigt modellen skal reguleres. Dette styres af parameteren C:

højere C – lavere regularisering, mere overfitting;
lavere C – stærkere regularisering, mindre overfitting (men muligvis underfitting).

Hvilke værdier af C der resulterer i en god model afhænger af datasættet, så det er bedst at vælge det ved hjælp af GridSearchCV.

Bemærk

Ved brug af logistisk regression med regularisering er det vigtigt at skalere dine data. Regularisering straffer store koefficienter, og uden skalering kan funktioner med større værdier forvride resultaterne. Faktisk er skalering næsten altid nødvendig – selv når regularisering ikke anvendes.

LogisticRegression-klassen inkluderer som standard regularisering, så du bør enten fjerne regularisering (ved at sætte penalty=None) eller skalere dataene (f.eks. ved brug af StandardScaler).

Bemærk

Hvis du bruger både PolynomialFeatures og StandardScaler, skal du sørge for at anvende StandardScaler efter genereringen af de polynomielle features. Skalering af data før polynomiel udvidelse kan forvride de resulterende features, da operationer som at kvadrere eller multiplicere allerede standardiserede værdier kan føre til unaturlige fordelinger.

1. Vælg den FORKERTE påstand.

2. Hvad er den korrekte rækkefølge for at forbehandle data

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 5

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 5