Hvorfor Skalere Data?
Etter å ha håndtert manglende verdier og kodet kategoriske variabler, er datasettet fritt for problemer som kan forårsake feil i modellen. Likevel gjenstår en utfordring: forskjellige skalaer på variablene.
Dette problemet vil ikke føre til feil hvis du mater dataene i nåværende tilstand inn i modellen, men det kan vesentlig forverre enkelte ML-modeller.
Tenk deg et eksempel der én variabel er 'age'
, med verdier fra 18 til 50, og en annen variabel er 'income'
, med verdier fra $25,000 til $500,000. Det er åpenbart at en forskjell på ti år i alder er mer betydningsfull enn en forskjell på ti dollar i inntekt.
Noen modeller, som k-NN (som vi skal bruke i dette kurset), kan imidlertid behandle disse forskjellene som like viktige. Dermed vil 'income'
-kolonnen få mye større innvirkning på modellen. Derfor er det avgjørende at variablene har omtrent samme verdiområde for at k-NN skal fungere effektivt.
Selv om andre modeller kan være mindre påvirket av ulike skalaer, kan skalering av data betydelig øke prosesseringshastigheten. Derfor er datascaling ofte inkludert som et siste steg i forhåndsbehandlingen.
Som nevnt ovenfor, er datascaling vanligvis det siste steget i forhåndsbehandlingsfasen. Dette er fordi endringer i funksjoner som gjøres etter skalering kan gjøre at dataene ikke lenger er skalert.
Neste kapittel vil ta for seg de tre mest brukte transformatorene for datascaling. Disse er StandardScaler
, MinMaxScaler
og MaxAbsScaler
.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Hvorfor Skalere Data?
Sveip for å vise menyen
Etter å ha håndtert manglende verdier og kodet kategoriske variabler, er datasettet fritt for problemer som kan forårsake feil i modellen. Likevel gjenstår en utfordring: forskjellige skalaer på variablene.
Dette problemet vil ikke føre til feil hvis du mater dataene i nåværende tilstand inn i modellen, men det kan vesentlig forverre enkelte ML-modeller.
Tenk deg et eksempel der én variabel er 'age'
, med verdier fra 18 til 50, og en annen variabel er 'income'
, med verdier fra $25,000 til $500,000. Det er åpenbart at en forskjell på ti år i alder er mer betydningsfull enn en forskjell på ti dollar i inntekt.
Noen modeller, som k-NN (som vi skal bruke i dette kurset), kan imidlertid behandle disse forskjellene som like viktige. Dermed vil 'income'
-kolonnen få mye større innvirkning på modellen. Derfor er det avgjørende at variablene har omtrent samme verdiområde for at k-NN skal fungere effektivt.
Selv om andre modeller kan være mindre påvirket av ulike skalaer, kan skalering av data betydelig øke prosesseringshastigheten. Derfor er datascaling ofte inkludert som et siste steg i forhåndsbehandlingen.
Som nevnt ovenfor, er datascaling vanligvis det siste steget i forhåndsbehandlingsfasen. Dette er fordi endringer i funksjoner som gjøres etter skalering kan gjøre at dataene ikke lenger er skalert.
Neste kapittel vil ta for seg de tre mest brukte transformatorene for datascaling. Disse er StandardScaler
, MinMaxScaler
og MaxAbsScaler
.
Takk for tilbakemeldingene dine!