Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Miksi Skaalata Dataa? | Osio
Practice
Projects
Quizzes & Challenges
Visat
Challenges
/
Koneoppimisen Perusteet

bookMiksi Skaalata Dataa?

Kun puuttuvat arvot on käsitelty ja kategoriset ominaisuudet koodattu, tietoaineistossa ei ole enää ongelmia, jotka aiheuttaisivat virheitä mallissa. Kuitenkin yksi haaste on vielä jäljellä: ominaisuuksien erilaiset mittakaavat.

Tämä ongelma ei aiheuta virheitä, vaikka syöttäisit nykytilan tiedot mallille, mutta se voi huomattavasti heikentää joidenkin koneoppimismallien suorituskykyä.

Tarkastellaan esimerkkiä, jossa yksi ominaisuus on 'age', jonka arvot vaihtelevat 18:sta 50:een, ja toinen ominaisuus on 'income', jonka arvot vaihtelevat $25,000:sta $500,000:een. On selvää, että kymmenen vuoden ero iässä on merkittävämpi kuin kymmenen dollarin ero tuloissa.

Jotkin mallit, kuten k-NN (jota käytämme tällä kurssilla), saattavat kuitenkin käsitellä näitä eroja yhtä merkittävinä. Tämän seurauksena 'income'-sarake vaikuttaa malliin huomattavasti enemmän. Siksi on tärkeää, että ominaisuuksilla on suurin piirtein sama vaihteluväli, jotta k-NN toimii tehokkaasti.

Vaikka muut mallit eivät välttämättä ole yhtä herkkiä mittakaavaeroille, tietojen skaalaus voi merkittävästi nopeuttaa käsittelyä. Tämän vuoksi tietojen skaalaus sisällytetään usein esikäsittelyn viimeiseksi vaiheeksi.

Note
Huomio

Kuten aiemmin mainittiin, datan skaalaus on yleensä viimeinen vaihe esikäsittelyssä. Tämä johtuu siitä, että skaalaamisen jälkeen tehtävät muutokset ominaisuuksiin voivat palauttaa datan takaisin skaalaamattomaksi.

Seuraavassa luvussa käsitellään kolmea yleisintä datan skaalaamiseen käytettävää muunninta. Nämä ovat StandardScaler, MinMaxScaler ja MaxAbsScaler.

question mark

Miksi ominaisuuksien skaalaaminen on tärkeää koneoppimismalleissa, kuten k-lähimmät naapurit (KNN)?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 14

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookMiksi Skaalata Dataa?

Pyyhkäise näyttääksesi valikon

Kun puuttuvat arvot on käsitelty ja kategoriset ominaisuudet koodattu, tietoaineistossa ei ole enää ongelmia, jotka aiheuttaisivat virheitä mallissa. Kuitenkin yksi haaste on vielä jäljellä: ominaisuuksien erilaiset mittakaavat.

Tämä ongelma ei aiheuta virheitä, vaikka syöttäisit nykytilan tiedot mallille, mutta se voi huomattavasti heikentää joidenkin koneoppimismallien suorituskykyä.

Tarkastellaan esimerkkiä, jossa yksi ominaisuus on 'age', jonka arvot vaihtelevat 18:sta 50:een, ja toinen ominaisuus on 'income', jonka arvot vaihtelevat $25,000:sta $500,000:een. On selvää, että kymmenen vuoden ero iässä on merkittävämpi kuin kymmenen dollarin ero tuloissa.

Jotkin mallit, kuten k-NN (jota käytämme tällä kurssilla), saattavat kuitenkin käsitellä näitä eroja yhtä merkittävinä. Tämän seurauksena 'income'-sarake vaikuttaa malliin huomattavasti enemmän. Siksi on tärkeää, että ominaisuuksilla on suurin piirtein sama vaihteluväli, jotta k-NN toimii tehokkaasti.

Vaikka muut mallit eivät välttämättä ole yhtä herkkiä mittakaavaeroille, tietojen skaalaus voi merkittävästi nopeuttaa käsittelyä. Tämän vuoksi tietojen skaalaus sisällytetään usein esikäsittelyn viimeiseksi vaiheeksi.

Note
Huomio

Kuten aiemmin mainittiin, datan skaalaus on yleensä viimeinen vaihe esikäsittelyssä. Tämä johtuu siitä, että skaalaamisen jälkeen tehtävät muutokset ominaisuuksiin voivat palauttaa datan takaisin skaalaamattomaksi.

Seuraavassa luvussa käsitellään kolmea yleisintä datan skaalaamiseen käytettävää muunninta. Nämä ovat StandardScaler, MinMaxScaler ja MaxAbsScaler.

question mark

Miksi ominaisuuksien skaalaaminen on tärkeää koneoppimismalleissa, kuten k-lähimmät naapurit (KNN)?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 14
some-alt