Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Overfitting og Regularisering | Logistisk Regression
Klassifikation med Python

bookOverfitting og Regularisering

Som demonstreret i det forrige kapitel, kan du ved hjælp af PolynomialFeatures oprette en kompleks beslutningsgrænse. Anden-gradspolynomier kan endda skabe de grænser, der vises på billedet nedenfor:

Og det er kun en grad på to. En højere grad kan give endnu mere komplekse former. Men der er et problem med dette. Beslutningsgrænsen, der oprettes af logistisk regression, kan blive for kompliceret, hvilket får modellen til at overfitte.

Overfitting opstår, når modellen i stedet for at lære generelle mønstre i dataene, opbygger en meget kompleks beslutningsgrænse for at håndtere hver enkelt træningsinstans. Alligevel præsterer den ikke lige så godt på data, den aldrig har set før, selvom det at præstere godt på usete data er en primær opgave for en maskinlæringsmodel.

Regulering tackler problemet med overfitting. Faktisk anvendes l2-regulering som standard i LogisticRegression-klassen. Men du skal konfigurere, hvor kraftigt modellen skal reguleres. Dette styres af parameteren C:

carousel-imgcarousel-imgcarousel-img
  • højere C – lavere regularisering, mere overfitting;
  • lavere C – stærkere regularisering, mindre overfitting (men muligvis underfitting).

Hvilke værdier af C der resulterer i en god model afhænger af datasættet, så det er bedst at vælge det ved hjælp af GridSearchCV.

Note
Bemærk

Ved brug af logistisk regression med regularisering er det vigtigt at skalere dine data. Regularisering straffer store koefficienter, og uden skalering kan funktioner med større værdier forvride resultaterne. Faktisk er skalering næsten altid nødvendig – selv når regularisering ikke anvendes.

LogisticRegression-klassen inkluderer som standard regularisering, så du bør enten fjerne regularisering (ved at sætte penalty=None) eller skalere dataene (f.eks. ved brug af StandardScaler).

Note
Bemærk

Hvis du bruger både PolynomialFeatures og StandardScaler, skal du sørge for at anvende StandardScaler efter genereringen af de polynomielle features. Skalering af data før polynomiel udvidelse kan forvride de resulterende features, da operationer som at kvadrere eller multiplicere allerede standardiserede værdier kan føre til unaturlige fordelinger.

1. Vælg den FORKERTE påstand.

2. Hvad er den korrekte rækkefølge for at forbehandle data

question mark

Vælg den FORKERTE påstand.

Select the correct answer

question mark

Hvad er den korrekte rækkefølge for at forbehandle data

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 5

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain how to use GridSearchCV to find the best C value?

What is the difference between overfitting and underfitting?

How does regularization help prevent overfitting in logistic regression?

Awesome!

Completion rate improved to 4.17

bookOverfitting og Regularisering

Stryg for at vise menuen

Som demonstreret i det forrige kapitel, kan du ved hjælp af PolynomialFeatures oprette en kompleks beslutningsgrænse. Anden-gradspolynomier kan endda skabe de grænser, der vises på billedet nedenfor:

Og det er kun en grad på to. En højere grad kan give endnu mere komplekse former. Men der er et problem med dette. Beslutningsgrænsen, der oprettes af logistisk regression, kan blive for kompliceret, hvilket får modellen til at overfitte.

Overfitting opstår, når modellen i stedet for at lære generelle mønstre i dataene, opbygger en meget kompleks beslutningsgrænse for at håndtere hver enkelt træningsinstans. Alligevel præsterer den ikke lige så godt på data, den aldrig har set før, selvom det at præstere godt på usete data er en primær opgave for en maskinlæringsmodel.

Regulering tackler problemet med overfitting. Faktisk anvendes l2-regulering som standard i LogisticRegression-klassen. Men du skal konfigurere, hvor kraftigt modellen skal reguleres. Dette styres af parameteren C:

carousel-imgcarousel-imgcarousel-img
  • højere C – lavere regularisering, mere overfitting;
  • lavere C – stærkere regularisering, mindre overfitting (men muligvis underfitting).

Hvilke værdier af C der resulterer i en god model afhænger af datasættet, så det er bedst at vælge det ved hjælp af GridSearchCV.

Note
Bemærk

Ved brug af logistisk regression med regularisering er det vigtigt at skalere dine data. Regularisering straffer store koefficienter, og uden skalering kan funktioner med større værdier forvride resultaterne. Faktisk er skalering næsten altid nødvendig – selv når regularisering ikke anvendes.

LogisticRegression-klassen inkluderer som standard regularisering, så du bør enten fjerne regularisering (ved at sætte penalty=None) eller skalere dataene (f.eks. ved brug af StandardScaler).

Note
Bemærk

Hvis du bruger både PolynomialFeatures og StandardScaler, skal du sørge for at anvende StandardScaler efter genereringen af de polynomielle features. Skalering af data før polynomiel udvidelse kan forvride de resulterende features, da operationer som at kvadrere eller multiplicere allerede standardiserede værdier kan føre til unaturlige fordelinger.

1. Vælg den FORKERTE påstand.

2. Hvad er den korrekte rækkefølge for at forbehandle data

question mark

Vælg den FORKERTE påstand.

Select the correct answer

question mark

Hvad er den korrekte rækkefølge for at forbehandle data

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 5
some-alt