Hvorfor Skalere Dataene?
Stryg for at vise menuen
Efter håndtering af manglende værdier og kodning af kategoriske funktioner er datasættet fri for problemer, der kan forårsage fejl i modellen. Dog er der stadig en udfordring tilbage: forskellige skalaer for funktioner.
Dette problem vil ikke forårsage fejl, hvis du giver dataene i deres nuværende tilstand til modellen, men det kan væsentligt forringe nogle ML-modeller.
Overvej et eksempel, hvor én feature er 'age', der spænder fra 18 til 50, og den anden feature er 'income', der spænder fra $25,000 til $500,000. Det er tydeligt, at en forskel på ti år i alder er mere betydningsfuld end en forskel på ti dollars i indkomst.
Dog kan nogle modeller, såsom k-NN (som vi vil bruge i dette kursus), behandle disse forskelle som lige vigtige. Derfor vil kolonnen 'income' have en langt større indflydelse på modellen. Det er derfor afgørende, at features har omtrent samme interval, for at k-NN kan fungere effektivt.
Selvom andre modeller kan være mindre påvirkede af forskellige skalaer, kan skalering af data markant forbedre behandlingstiden. Derfor indgår datascalering ofte som det sidste trin i forbehandlingen.
Som nævnt ovenfor er datascalering normalt det sidste trin i forbehandlingsfasen. Det skyldes, at ændringer af features efter skalering kan gøre dataene uskalerede igen.
Det næste kapitel gennemgår de tre mest anvendte transformere til datascalering. Det er StandardScaler, MinMaxScaler og MaxAbsScaler.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat