Miksi Skaalata Dataa?
Pyyhkäise näyttääksesi valikon
Kun puuttuvat arvot on käsitelty ja kategoriset ominaisuudet koodattu, tietoaineisto on vapaa virheistä, jotka aiheuttaisivat ongelmia mallissa. Kuitenkin yksi haaste on vielä jäljellä: ominaisuuksien eri mittakaavat.
Tämä ongelma ei aiheuta virheitä, jos syötät nykyisessä tilassa olevan datan mallille, mutta se voi merkittävästi heikentää joidenkin koneoppimismallien suorituskykyä.
Tarkastellaan esimerkkiä, jossa yksi ominaisuus on 'age', jonka arvot vaihtelevat 18:sta 50:een, ja toinen ominaisuus on 'income', jonka arvot vaihtelevat $25,000:sta $500,000:een. On selvää, että kymmenen vuoden ero iässä on merkittävämpi kuin kymmenen dollarin ero tuloissa.
Jotkin mallit, kuten k-NN (jota käytämme tässä kurssissa), saattavat kuitenkin käsitellä näitä eroja yhtä tärkeinä. Tämän seurauksena 'income'-sarake vaikuttaa malliin huomattavasti enemmän. Siksi on tärkeää, että ominaisuuksilla on suurin piirtein sama vaihteluväli, jotta k-NN toimii tehokkaasti.
Vaikka muut mallit eivät välttämättä ole yhtä herkkiä eri skaaloille, tietojen skaalaaminen voi merkittävästi nopeuttaa käsittelyä. Tästä syystä tietojen skaalaus sisällytetään usein esikäsittelyn viimeiseksi vaiheeksi.
Kuten yllä mainittiin, tietojen skaalaus on yleensä esikäsittelyn viimeinen vaihe. Tämä johtuu siitä, että skaalaamisen jälkeen tehdyt muutokset ominaisuuksiin voivat tehdä tiedoista jälleen skaalaamattomia.
Seuraavassa luvussa käsitellään kolmea yleisimmin käytettyä skaalausmuunninta. Nämä ovat StandardScaler, MinMaxScaler ja MaxAbsScaler.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme