Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Overtilpasning og Regularisering | Logistisk Regresjon
Klassifisering med Python

bookOvertilpasning og Regularisering

Som vist i forrige kapittel, kan du ved å bruke PolynomialFeatures lage en kompleks beslutningsgrense. Andregradspolynomer kan til og med produsere grensene vist på bildet nedenfor:

Og dette er kun med grad to. En høyere grad kan gi enda mer komplekse former. Men dette medfører et problem. Beslutningsgrensen som bygges av logistisk regresjon kan bli for komplisert, noe som fører til overtilpasning.

Overtilpasning oppstår når modellen, i stedet for å lære generelle mønstre i dataene, bygger en svært kompleks beslutningsgrense for å håndtere hver enkelt treningsinstans. Likevel presterer den ikke like godt på data den ikke har sett før, selv om god ytelse på ukjente data er en hovedoppgave for en maskinlæringsmodell.

Regularisering løser problemet med overtilpasning. Faktisk brukes l2-regularisering som standard i LogisticRegression-klassen. Du må imidlertid konfigurere hvor sterkt modellen skal regulariseres. Dette styres av parameteren C:

carousel-imgcarousel-imgcarousel-img
  • høyere C – lavere regularisering, mer overtilpasning;
  • lavere C – sterkere regularisering, mindre overtilpasning (men muligens undertilpasning).

Hvilke verdier av C som gir en god modell avhenger av datasettet, derfor er det best å velge dette ved hjelp av GridSearchCV.

Note
Merk

Ved bruk av logistisk regresjon med regularisering er det viktig å skalere dataene dine. Regularisering straffer store koeffisienter, og uten skalering kan funksjoner med større verdier forvrenge resultatene. Faktisk er skalaering nesten alltid nødvendig – selv når regularisering ikke brukes.

LogisticRegression-klassen inkluderer regularisering som standard, så du bør enten fjerne regularisering (ved å sette penalty=None) eller skalere dataene (for eksempel ved å bruke StandardScaler).

Note
Merk

Hvis du bruker både PolynomialFeatures og StandardScaler, må du sørge for å bruke StandardScaler etter at de polynomielle egenskapene er generert. Å skalere dataene før polynomekspansjon kan forvrenge de resulterende egenskapene, siden operasjoner som å kvadrere eller multiplisere allerede standardiserte verdier kan føre til unaturlige fordelinger.

1. Velg det FEILAKTIGE utsagnet.

2. Hva er riktig rekkefølge for å forhåndsbehandle data

question mark

Velg det FEILAKTIGE utsagnet.

Select the correct answer

question mark

Hva er riktig rekkefølge for å forhåndsbehandle data

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 5

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 4.17

bookOvertilpasning og Regularisering

Sveip for å vise menyen

Som vist i forrige kapittel, kan du ved å bruke PolynomialFeatures lage en kompleks beslutningsgrense. Andregradspolynomer kan til og med produsere grensene vist på bildet nedenfor:

Og dette er kun med grad to. En høyere grad kan gi enda mer komplekse former. Men dette medfører et problem. Beslutningsgrensen som bygges av logistisk regresjon kan bli for komplisert, noe som fører til overtilpasning.

Overtilpasning oppstår når modellen, i stedet for å lære generelle mønstre i dataene, bygger en svært kompleks beslutningsgrense for å håndtere hver enkelt treningsinstans. Likevel presterer den ikke like godt på data den ikke har sett før, selv om god ytelse på ukjente data er en hovedoppgave for en maskinlæringsmodell.

Regularisering løser problemet med overtilpasning. Faktisk brukes l2-regularisering som standard i LogisticRegression-klassen. Du må imidlertid konfigurere hvor sterkt modellen skal regulariseres. Dette styres av parameteren C:

carousel-imgcarousel-imgcarousel-img
  • høyere C – lavere regularisering, mer overtilpasning;
  • lavere C – sterkere regularisering, mindre overtilpasning (men muligens undertilpasning).

Hvilke verdier av C som gir en god modell avhenger av datasettet, derfor er det best å velge dette ved hjelp av GridSearchCV.

Note
Merk

Ved bruk av logistisk regresjon med regularisering er det viktig å skalere dataene dine. Regularisering straffer store koeffisienter, og uten skalering kan funksjoner med større verdier forvrenge resultatene. Faktisk er skalaering nesten alltid nødvendig – selv når regularisering ikke brukes.

LogisticRegression-klassen inkluderer regularisering som standard, så du bør enten fjerne regularisering (ved å sette penalty=None) eller skalere dataene (for eksempel ved å bruke StandardScaler).

Note
Merk

Hvis du bruker både PolynomialFeatures og StandardScaler, må du sørge for å bruke StandardScaler etter at de polynomielle egenskapene er generert. Å skalere dataene før polynomekspansjon kan forvrenge de resulterende egenskapene, siden operasjoner som å kvadrere eller multiplisere allerede standardiserte verdier kan føre til unaturlige fordelinger.

1. Velg det FEILAKTIGE utsagnet.

2. Hva er riktig rekkefølge for å forhåndsbehandle data

question mark

Velg det FEILAKTIGE utsagnet.

Select the correct answer

question mark

Hva er riktig rekkefølge for å forhåndsbehandle data

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 5
some-alt