Hvorfor Skalere Dataene?
Etter å ha håndtert manglende verdier og kodet kategoriske variabler, er datasettet fritt for problemer som kan forårsake feil i modellen. Likevel gjenstår en utfordring: forskjellige skalaer på variablene.
Dette problemet vil ikke føre til feil hvis du bruker dataene i nåværende tilstand i modellen, men det kan betydelig forverre enkelte ML-modeller.
Tenk på et eksempel der én variabel er 'age', med verdier fra 18 til 50, og en annen variabel er 'income', med verdier fra $25,000 til $500,000. Det er åpenbart at en forskjell på ti år i alder er mer betydningsfull enn en forskjell på ti dollar i inntekt.
Noen modeller, som k-NN (som vi skal bruke i dette kurset), kan imidlertid behandle disse forskjellene som like viktige. Som et resultat vil kolonnen 'income' ha mye større innvirkning på modellen. Derfor er det avgjørende at variablene har omtrent samme verdiområde for at k-NN skal fungere effektivt.
Selv om andre modeller kan være mindre påvirket av ulike skalaer, kan skalering av data betydelig øke prosesseringshastigheten. Derfor er datascaling ofte inkludert som et siste steg i forhåndsbehandlingen.
Som nevnt ovenfor, er datascaling vanligvis det siste steget i forhåndsprosesseringsfasen. Dette er fordi endringer i egenskaper som gjøres etter skalering kan føre til at dataene ikke lenger er skalert.
Neste kapittel tar for seg de tre mest brukte transformatorene for datascaling. Disse er StandardScaler, MinMaxScaler og MaxAbsScaler.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Hvorfor Skalere Dataene?
Sveip for å vise menyen
Etter å ha håndtert manglende verdier og kodet kategoriske variabler, er datasettet fritt for problemer som kan forårsake feil i modellen. Likevel gjenstår en utfordring: forskjellige skalaer på variablene.
Dette problemet vil ikke føre til feil hvis du bruker dataene i nåværende tilstand i modellen, men det kan betydelig forverre enkelte ML-modeller.
Tenk på et eksempel der én variabel er 'age', med verdier fra 18 til 50, og en annen variabel er 'income', med verdier fra $25,000 til $500,000. Det er åpenbart at en forskjell på ti år i alder er mer betydningsfull enn en forskjell på ti dollar i inntekt.
Noen modeller, som k-NN (som vi skal bruke i dette kurset), kan imidlertid behandle disse forskjellene som like viktige. Som et resultat vil kolonnen 'income' ha mye større innvirkning på modellen. Derfor er det avgjørende at variablene har omtrent samme verdiområde for at k-NN skal fungere effektivt.
Selv om andre modeller kan være mindre påvirket av ulike skalaer, kan skalering av data betydelig øke prosesseringshastigheten. Derfor er datascaling ofte inkludert som et siste steg i forhåndsbehandlingen.
Som nevnt ovenfor, er datascaling vanligvis det siste steget i forhåndsprosesseringsfasen. Dette er fordi endringer i egenskaper som gjøres etter skalering kan føre til at dataene ikke lenger er skalert.
Neste kapittel tar for seg de tre mest brukte transformatorene for datascaling. Disse er StandardScaler, MinMaxScaler og MaxAbsScaler.
Takk for tilbakemeldingene dine!