Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvorfor Skalere Dataene? | Forbehandling af Data med Scikit-learn
ML Introduktion med Scikit-learn

bookHvorfor Skalere Dataene?

Efter håndtering af manglende værdier og kodning af kategoriske funktioner er datasættet fri for problemer, der kan forårsage fejl i modellen. Dog består en anden udfordring: forskellige skalaer for funktioner.

Dette problem vil ikke forårsage fejl, hvis du anvender dataene i deres nuværende tilstand til modellen, men det kan væsentligt forringe visse ML-modeller.

Overvej et eksempel, hvor én funktion er 'age', der spænder fra 18 til 50, og den anden funktion er 'income', der spænder fra $25,000 til $500,000. Det er tydeligt, at en forskel på ti år i alder er mere betydningsfuld end en forskel på ti dollars i indkomst.

Dog kan nogle modeller, såsom k-NN (som vi vil anvende i dette kursus), behandle disse forskelle som lige vigtige. Som følge heraf vil kolonnen 'income' have en langt større indflydelse på modellen. Derfor er det afgørende, at funktioner har omtrent samme interval, for at k-NN fungerer effektivt.

Selvom andre modeller kan være mindre påvirkede af forskellige skalaer, kan skalering af data markant forbedre behandlingstiden. Derfor indgår datascaling ofte som det sidste trin i forbehandlingen.

Note
Bemærk

Som nævnt ovenfor er datascaling normalt det sidste trin i forbehandlingsfasen. Dette skyldes, at ændringer af features foretaget efter scaling kan gøre dataene uskalerede igen.

Det næste kapitel vil gennemgå de tre mest anvendte transformere til datascaling. Disse er StandardScaler, MinMaxScaler og MaxAbsScaler.

question mark

Hvorfor er det vigtigt at skalere features i maskinlæringsmodeller som k-nearest neighbors (KNN)?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 9

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 3.13

bookHvorfor Skalere Dataene?

Stryg for at vise menuen

Efter håndtering af manglende værdier og kodning af kategoriske funktioner er datasættet fri for problemer, der kan forårsage fejl i modellen. Dog består en anden udfordring: forskellige skalaer for funktioner.

Dette problem vil ikke forårsage fejl, hvis du anvender dataene i deres nuværende tilstand til modellen, men det kan væsentligt forringe visse ML-modeller.

Overvej et eksempel, hvor én funktion er 'age', der spænder fra 18 til 50, og den anden funktion er 'income', der spænder fra $25,000 til $500,000. Det er tydeligt, at en forskel på ti år i alder er mere betydningsfuld end en forskel på ti dollars i indkomst.

Dog kan nogle modeller, såsom k-NN (som vi vil anvende i dette kursus), behandle disse forskelle som lige vigtige. Som følge heraf vil kolonnen 'income' have en langt større indflydelse på modellen. Derfor er det afgørende, at funktioner har omtrent samme interval, for at k-NN fungerer effektivt.

Selvom andre modeller kan være mindre påvirkede af forskellige skalaer, kan skalering af data markant forbedre behandlingstiden. Derfor indgår datascaling ofte som det sidste trin i forbehandlingen.

Note
Bemærk

Som nævnt ovenfor er datascaling normalt det sidste trin i forbehandlingsfasen. Dette skyldes, at ændringer af features foretaget efter scaling kan gøre dataene uskalerede igen.

Det næste kapitel vil gennemgå de tre mest anvendte transformere til datascaling. Disse er StandardScaler, MinMaxScaler og MaxAbsScaler.

question mark

Hvorfor er det vigtigt at skalere features i maskinlæringsmodeller som k-nearest neighbors (KNN)?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 9
some-alt