Miksi Skaalata Dataa?
Kun puuttuvat arvot on käsitelty ja kategoriset ominaisuudet koodattu, tietoaineistossa ei ole enää ongelmia, jotka aiheuttaisivat virheitä mallissa. Kuitenkin yksi haaste on vielä jäljellä: ominaisuuksien erilaiset mittakaavat.
Tämä ongelma ei aiheuta virheitä, jos syötät nykyisessä tilassa olevan datan mallille, mutta se voi merkittävästi heikentää joidenkin koneoppimismallien suorituskykyä.
Tarkastellaan esimerkkiä, jossa yksi ominaisuus on 'age', jonka arvot vaihtelevat 18:sta 50:een, ja toinen ominaisuus on 'income', jonka arvot vaihtelevat $25,000:sta $500,000:een. On selvää, että kymmenen vuoden ero iässä on merkittävämpi kuin kymmenen dollarin ero tuloissa.
Jotkin mallit, kuten k-NN (jota käytämme tässä kurssissa), voivat kuitenkin käsitellä näitä eroja yhtä tärkeinä. Tämän seurauksena 'income'-sarake vaikuttaa malliin huomattavasti enemmän. Siksi on tärkeää, että ominaisuuksilla on suurin piirtein sama vaihteluväli, jotta k-NN toimii tehokkaasti.
Vaikka muut mallit eivät välttämättä ole yhtä herkkiä erilaisille mittakaavoille, skaalaaminen voi merkittävästi nopeuttaa tietojenkäsittelyä. Tämän vuoksi tietojen skaalaus sisällytetään usein esikäsittelyn viimeiseksi vaiheeksi.
Kuten aiemmin mainittiin, tietojen skaalaus on yleensä viimeinen vaihe esikäsittelyssä. Tämä johtuu siitä, että skaalaamisen jälkeen tehtävät muutokset ominaisuuksiin voivat johtaa siihen, että tiedot eivät enää ole skaalattuja.
Seuraavassa luvussa käsitellään kolmea yleisintä tietojen skaalaamiseen käytettyä muunninta. Nämä ovat StandardScaler, MinMaxScaler ja MaxAbsScaler.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?
Why does k-NN require features to be on the same scale?
Can you explain how scaling improves processing speed in machine learning models?
Awesome!
Completion rate improved to 3.13
Miksi Skaalata Dataa?
Pyyhkäise näyttääksesi valikon
Kun puuttuvat arvot on käsitelty ja kategoriset ominaisuudet koodattu, tietoaineistossa ei ole enää ongelmia, jotka aiheuttaisivat virheitä mallissa. Kuitenkin yksi haaste on vielä jäljellä: ominaisuuksien erilaiset mittakaavat.
Tämä ongelma ei aiheuta virheitä, jos syötät nykyisessä tilassa olevan datan mallille, mutta se voi merkittävästi heikentää joidenkin koneoppimismallien suorituskykyä.
Tarkastellaan esimerkkiä, jossa yksi ominaisuus on 'age', jonka arvot vaihtelevat 18:sta 50:een, ja toinen ominaisuus on 'income', jonka arvot vaihtelevat $25,000:sta $500,000:een. On selvää, että kymmenen vuoden ero iässä on merkittävämpi kuin kymmenen dollarin ero tuloissa.
Jotkin mallit, kuten k-NN (jota käytämme tässä kurssissa), voivat kuitenkin käsitellä näitä eroja yhtä tärkeinä. Tämän seurauksena 'income'-sarake vaikuttaa malliin huomattavasti enemmän. Siksi on tärkeää, että ominaisuuksilla on suurin piirtein sama vaihteluväli, jotta k-NN toimii tehokkaasti.
Vaikka muut mallit eivät välttämättä ole yhtä herkkiä erilaisille mittakaavoille, skaalaaminen voi merkittävästi nopeuttaa tietojenkäsittelyä. Tämän vuoksi tietojen skaalaus sisällytetään usein esikäsittelyn viimeiseksi vaiheeksi.
Kuten aiemmin mainittiin, tietojen skaalaus on yleensä viimeinen vaihe esikäsittelyssä. Tämä johtuu siitä, että skaalaamisen jälkeen tehtävät muutokset ominaisuuksiin voivat johtaa siihen, että tiedot eivät enää ole skaalattuja.
Seuraavassa luvussa käsitellään kolmea yleisintä tietojen skaalaamiseen käytettyä muunninta. Nämä ovat StandardScaler, MinMaxScaler ja MaxAbsScaler.
Kiitos palautteestasi!