Overfitting og Regularisering
Stryg for at vise menuen
Som demonstreret i det forrige kapitel, kan du ved hjælp af PolynomialFeatures skabe en kompleks beslutningsgrænse. Anden-gradspolynomielle features kan endda producere de grænser, der vises på billedet nedenfor:
Og det er kun en grad på to. En højere grad kan give endnu mere komplekse former. Men der er et problem med dette. Beslutningsgrænsen, der opbygges af logistisk regression, kan blive for kompliceret, hvilket får modellen til at overfitte.
Overfitting opstår, når modellen i stedet for at lære generelle mønstre i dataene, opbygger en meget kompleks beslutningsgrænse for at håndtere hver enkelt træningsinstans. Alligevel præsterer den ikke lige så godt på data, den aldrig har set før, selvom det at præstere godt på usete data er en af maskinlæringsmodellens primære opgaver.
Regularisering håndterer problemet med overfitting. Faktisk anvendes l2-regularisering som standard i LogisticRegression-klassen. Du skal dog konfigurere, hvor stærkt modellen skal regulariseres. Dette styres af en C-parameter:



- højere
C- lavere regularisering, mere overfitting; - lavere
C- stærkere regularisering, mindre overfitting (men muligvis underfitting).
Hvilke værdier af C der giver en god model afhænger af datasættet, så det er bedst at vælge det ved hjælp af GridSearchCV.
Når du bruger logistisk regression med regularisering, er det vigtigt at skalere dine data. Regularisering straffer store koefficienter, og uden skalering kan funktioner med større værdier forvride resultaterne. Faktisk er skalering næsten altid nødvendig – selv når regularisering ikke bruges.
LogisticRegression-klassen inkluderer som standard regularisering, så du bør enten fjerne regularisering (ved at sætte penalty=None) eller skalere dataene (f.eks. ved brug af StandardScaler).
Hvis du bruger både PolynomialFeatures og StandardScaler, skal du sørge for at anvende StandardScaler efter genereringen af de polynomielle features. Skalering af data før polynomiel udvidelse kan forvride de resulterende features, da operationer som at kvadrere eller multiplicere allerede standardiserede værdier kan føre til unaturlige fordelinger.
1. Vælg den FORKERTE påstand.
2. Hvad er den korrekte rækkefølge for at forbehandle data
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat