Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele StandardScaler, MinMaxScaler, MaxAbsScaler | Datan Esikäsittely Scikit-learnilla
Quizzes & Challenges
Quizzes
Challenges
/
Johdatus koneoppimiseen Pythonilla

bookStandardScaler, MinMaxScaler, MaxAbsScaler

Kolme suosittua lähestymistapaa datan skaalaamiseen:

  • MinMaxScaler: skaalaa ominaisuudet välille [0, 1];
  • MaxAbsScaler: skaalaa ominaisuudet siten, että suurin itseisarvo on 1 (tällöin data on varmasti välillä [-1, 1]);
  • StandardScaler: standardoi ominaisuudet siten, että keskiarvo on 0 ja varianssi 1.

Havainnollistetaan skaalainten toimintaa tarkastelemalla 'culmen_depth_mm'- ja 'body_mass_g'-ominaisuuksia penguins dataset -aineistosta. Näiden ominaisuuksien skaalaa voidaan havainnoida piirtämällä ne kuvaajaan.

MinMaxScaler

MinMaxScaler toimii vähentämällä pienimmän arvon (jotta arvot alkavat nollasta) ja jakamalla sitten (x_max - x_min):llä, jolloin arvot ovat korkeintaan 1.

Tässä on gif, joka havainnollistaa, miten MinMaxScaler toimii:

MaxAbsScaler

MaxAbsScaler toimii etsimällä suurimman itseisarvon ja jakamalla jokaisen arvon sillä. Tämä varmistaa, että suurin itseisarvo on 1.

StandardScaler

StandardScaler perustuu tilastotieteeseen. Se toimii vähentämällä keskiarvon (keskittää arvot nollan ympärille) ja jakamalla keskihajonnalla (asettaa varianssin arvoksi 1).

Note
Huomio

Jos et ymmärrä, mitä keskiarvo, keskihajonta ja varianssi tarkoittavat, voit tutustua Learning Statistics with Python -kurssiimme. Tämä tieto ei kuitenkaan ole pakollinen jatkaaksesi eteenpäin.

Tässä on koodiesimerkki MinMaxScaler-luokan käytöstä. Muut skaalaimet toimivat samalla tavalla.

12345678910
import pandas as pd from sklearn.preprocessing import MinMaxScaler df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed_encoded.csv') # Assign X,y variables X, y = df.drop('species', axis=1), df['species'] # Initialize a MinMaxScaler object and transform the X minmax = MinMaxScaler() X = minmax.fit_transform(X) print(X)
copy

Tuloste ei ole kaikkein siistein, koska skaalaimet muuntavat datan numpy-taulukoksi, mutta putkistojen (pipelines) kanssa tämä ei ole ongelma.

Note
Huomio

Vain piirre-sarakkeet (muuttuja X) tulisi skaalata. Kohdemuuttujaa ei tarvitse skaalata, sillä se vaikeuttaisi käänteismuunnosprosessia.

Minkä skaalaimen valitsen?

StandardScaler on herkempi poikkeaville arvoille, joten se ei ole paras oletusskaalain. Jos haluat vaihtoehdon StandardScaler:lle, valinta MinMaxScaler:n ja MaxAbsScaler:n välillä riippuu mieltymyksistä: haluatko skaalata datan [0,1]-välille MinMaxScaler:lla vai [-1,1]-välille MaxAbsScaler:lla.

1. Mikä on MinMaxScaler-menetelmän ensisijainen tarkoitus datan esikäsittelyssä?

2. Miksi saatat harkita uudelleen StandardScaler-menetelmän käyttöä aineistossasi?

question mark

Mikä on MinMaxScaler-menetelmän ensisijainen tarkoitus datan esikäsittelyssä?

Select the correct answer

question mark

Miksi saatat harkita uudelleen StandardScaler-menetelmän käyttöä aineistossasi?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 10

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookStandardScaler, MinMaxScaler, MaxAbsScaler

Pyyhkäise näyttääksesi valikon

Kolme suosittua lähestymistapaa datan skaalaamiseen:

  • MinMaxScaler: skaalaa ominaisuudet välille [0, 1];
  • MaxAbsScaler: skaalaa ominaisuudet siten, että suurin itseisarvo on 1 (tällöin data on varmasti välillä [-1, 1]);
  • StandardScaler: standardoi ominaisuudet siten, että keskiarvo on 0 ja varianssi 1.

Havainnollistetaan skaalainten toimintaa tarkastelemalla 'culmen_depth_mm'- ja 'body_mass_g'-ominaisuuksia penguins dataset -aineistosta. Näiden ominaisuuksien skaalaa voidaan havainnoida piirtämällä ne kuvaajaan.

MinMaxScaler

MinMaxScaler toimii vähentämällä pienimmän arvon (jotta arvot alkavat nollasta) ja jakamalla sitten (x_max - x_min):llä, jolloin arvot ovat korkeintaan 1.

Tässä on gif, joka havainnollistaa, miten MinMaxScaler toimii:

MaxAbsScaler

MaxAbsScaler toimii etsimällä suurimman itseisarvon ja jakamalla jokaisen arvon sillä. Tämä varmistaa, että suurin itseisarvo on 1.

StandardScaler

StandardScaler perustuu tilastotieteeseen. Se toimii vähentämällä keskiarvon (keskittää arvot nollan ympärille) ja jakamalla keskihajonnalla (asettaa varianssin arvoksi 1).

Note
Huomio

Jos et ymmärrä, mitä keskiarvo, keskihajonta ja varianssi tarkoittavat, voit tutustua Learning Statistics with Python -kurssiimme. Tämä tieto ei kuitenkaan ole pakollinen jatkaaksesi eteenpäin.

Tässä on koodiesimerkki MinMaxScaler-luokan käytöstä. Muut skaalaimet toimivat samalla tavalla.

12345678910
import pandas as pd from sklearn.preprocessing import MinMaxScaler df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed_encoded.csv') # Assign X,y variables X, y = df.drop('species', axis=1), df['species'] # Initialize a MinMaxScaler object and transform the X minmax = MinMaxScaler() X = minmax.fit_transform(X) print(X)
copy

Tuloste ei ole kaikkein siistein, koska skaalaimet muuntavat datan numpy-taulukoksi, mutta putkistojen (pipelines) kanssa tämä ei ole ongelma.

Note
Huomio

Vain piirre-sarakkeet (muuttuja X) tulisi skaalata. Kohdemuuttujaa ei tarvitse skaalata, sillä se vaikeuttaisi käänteismuunnosprosessia.

Minkä skaalaimen valitsen?

StandardScaler on herkempi poikkeaville arvoille, joten se ei ole paras oletusskaalain. Jos haluat vaihtoehdon StandardScaler:lle, valinta MinMaxScaler:n ja MaxAbsScaler:n välillä riippuu mieltymyksistä: haluatko skaalata datan [0,1]-välille MinMaxScaler:lla vai [-1,1]-välille MaxAbsScaler:lla.

1. Mikä on MinMaxScaler-menetelmän ensisijainen tarkoitus datan esikäsittelyssä?

2. Miksi saatat harkita uudelleen StandardScaler-menetelmän käyttöä aineistossasi?

question mark

Mikä on MinMaxScaler-menetelmän ensisijainen tarkoitus datan esikäsittelyssä?

Select the correct answer

question mark

Miksi saatat harkita uudelleen StandardScaler-menetelmän käyttöä aineistossasi?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 10
some-alt