Overtilpasning og Regularisering
Som vist i forrige kapittel, kan du ved å bruke PolynomialFeatures lage en kompleks beslutningsgrense. Andregradspolynomer kan til og med produsere grensene vist på bildet nedenfor:
Og dette er kun med grad to. En høyere grad kan gi enda mer komplekse former. Men dette medfører et problem. Beslutningsgrensen som bygges av logistisk regresjon kan bli for komplisert, noe som fører til overtilpasning.
Overtilpasning oppstår når modellen, i stedet for å lære generelle mønstre i dataene, bygger en svært kompleks beslutningsgrense for å håndtere hver enkelt treningsinstans. Likevel presterer den ikke like godt på data den ikke har sett før, selv om god ytelse på ukjente data er en hovedoppgave for en maskinlæringsmodell.
Regularisering løser problemet med overtilpasning. Faktisk brukes l2-regularisering som standard i LogisticRegression-klassen. Du må imidlertid konfigurere hvor sterkt modellen skal regulariseres. Dette styres av parameteren C:



- høyere
C– lavere regularisering, mer overtilpasning; - lavere
C– sterkere regularisering, mindre overtilpasning (men muligens undertilpasning).
Hvilke verdier av C som gir en god modell avhenger av datasettet, derfor er det best å velge dette ved hjelp av GridSearchCV.
Ved bruk av logistisk regresjon med regularisering er det viktig å skalere dataene dine. Regularisering straffer store koeffisienter, og uten skalering kan funksjoner med større verdier forvrenge resultatene. Faktisk er skalaering nesten alltid nødvendig – selv når regularisering ikke brukes.
LogisticRegression-klassen inkluderer regularisering som standard, så du bør enten fjerne regularisering (ved å sette penalty=None) eller skalere dataene (for eksempel ved å bruke StandardScaler).
Hvis du bruker både PolynomialFeatures og StandardScaler, må du sørge for å bruke StandardScaler etter at de polynomielle egenskapene er generert. Å skalere dataene før polynomekspansjon kan forvrenge de resulterende egenskapene, siden operasjoner som å kvadrere eller multiplisere allerede standardiserte verdier kan føre til unaturlige fordelinger.
1. Velg det FEILAKTIGE utsagnet.
2. Hva er riktig rekkefølge for å forhåndsbehandle data
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 4.17
Overtilpasning og Regularisering
Sveip for å vise menyen
Som vist i forrige kapittel, kan du ved å bruke PolynomialFeatures lage en kompleks beslutningsgrense. Andregradspolynomer kan til og med produsere grensene vist på bildet nedenfor:
Og dette er kun med grad to. En høyere grad kan gi enda mer komplekse former. Men dette medfører et problem. Beslutningsgrensen som bygges av logistisk regresjon kan bli for komplisert, noe som fører til overtilpasning.
Overtilpasning oppstår når modellen, i stedet for å lære generelle mønstre i dataene, bygger en svært kompleks beslutningsgrense for å håndtere hver enkelt treningsinstans. Likevel presterer den ikke like godt på data den ikke har sett før, selv om god ytelse på ukjente data er en hovedoppgave for en maskinlæringsmodell.
Regularisering løser problemet med overtilpasning. Faktisk brukes l2-regularisering som standard i LogisticRegression-klassen. Du må imidlertid konfigurere hvor sterkt modellen skal regulariseres. Dette styres av parameteren C:



- høyere
C– lavere regularisering, mer overtilpasning; - lavere
C– sterkere regularisering, mindre overtilpasning (men muligens undertilpasning).
Hvilke verdier av C som gir en god modell avhenger av datasettet, derfor er det best å velge dette ved hjelp av GridSearchCV.
Ved bruk av logistisk regresjon med regularisering er det viktig å skalere dataene dine. Regularisering straffer store koeffisienter, og uten skalering kan funksjoner med større verdier forvrenge resultatene. Faktisk er skalaering nesten alltid nødvendig – selv når regularisering ikke brukes.
LogisticRegression-klassen inkluderer regularisering som standard, så du bør enten fjerne regularisering (ved å sette penalty=None) eller skalere dataene (for eksempel ved å bruke StandardScaler).
Hvis du bruker både PolynomialFeatures og StandardScaler, må du sørge for å bruke StandardScaler etter at de polynomielle egenskapene er generert. Å skalere dataene før polynomekspansjon kan forvrenge de resulterende egenskapene, siden operasjoner som å kvadrere eller multiplisere allerede standardiserte verdier kan føre til unaturlige fordelinger.
1. Velg det FEILAKTIGE utsagnet.
2. Hva er riktig rekkefølge for å forhåndsbehandle data
Takk for tilbakemeldingene dine!