Lære Overtilpasning og Regularisering

Som vist i forrige kapittel, kan du ved å bruke PolynomialFeatures lage en kompleks beslutningsgrense. Andregradspolynomer kan til og med produsere grensene vist på bildet nedenfor:

Og dette er kun med grad to. En høyere grad kan gi enda mer komplekse former. Men dette medfører et problem. Beslutningsgrensen som bygges av logistisk regresjon kan bli for komplisert, noe som fører til overtilpasning.

Overtilpasning oppstår når modellen, i stedet for å lære generelle mønstre i dataene, bygger en svært kompleks beslutningsgrense for å håndtere hver enkelt treningsinstans. Likevel presterer den ikke like godt på data den ikke har sett før, selv om god ytelse på ukjente data er en hovedoppgave for en maskinlæringsmodell.

Regularisering løser problemet med overtilpasning. Faktisk brukes l2-regularisering som standard i LogisticRegression-klassen. Du må imidlertid konfigurere hvor sterkt modellen skal regulariseres. Dette styres av parameteren C:

høyere C – lavere regularisering, mer overtilpasning;
lavere C – sterkere regularisering, mindre overtilpasning (men muligens undertilpasning).

Hvilke verdier av C som gir en god modell avhenger av datasettet, derfor er det best å velge dette ved hjelp av GridSearchCV.

Merk

Ved bruk av logistisk regresjon med regularisering er det viktig å skalere dataene dine. Regularisering straffer store koeffisienter, og uten skalering kan funksjoner med større verdier forvrenge resultatene. Faktisk er skalaering nesten alltid nødvendig – selv når regularisering ikke brukes.

LogisticRegression-klassen inkluderer regularisering som standard, så du bør enten fjerne regularisering (ved å sette penalty=None) eller skalere dataene (for eksempel ved å bruke StandardScaler).

Merk

Hvis du bruker både PolynomialFeatures og StandardScaler, må du sørge for å bruke StandardScaler etter at de polynomielle egenskapene er generert. Å skalere dataene før polynomekspansjon kan forvrenge de resulterende egenskapene, siden operasjoner som å kvadrere eller multiplisere allerede standardiserte verdier kan føre til unaturlige fordelinger.

1. Velg det FEILAKTIGE utsagnet.

2. Hva er riktig rekkefølge for å forhåndsbehandle data

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 5

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain how to use GridSearchCV to find the best C value?

What is the difference between overfitting and underfitting?

How does regularization help prevent overfitting in logistic regression?

Awesome!

Completion rate improved to 4.17

Sveip for å vise menyen

Som vist i forrige kapittel, kan du ved å bruke PolynomialFeatures lage en kompleks beslutningsgrense. Andregradspolynomer kan til og med produsere grensene vist på bildet nedenfor:

høyere C – lavere regularisering, mer overtilpasning;
lavere C – sterkere regularisering, mindre overtilpasning (men muligens undertilpasning).

Hvilke verdier av C som gir en god modell avhenger av datasettet, derfor er det best å velge dette ved hjelp av GridSearchCV.

Merk

1. Velg det FEILAKTIGE utsagnet.

2. Hva er riktig rekkefølge for å forhåndsbehandle data

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 5