Haaste: Puuttuvien Arvojen Imputointi
SimpleImputer-luokka korvaa puuttuvat arvot automaattisesti.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Tärkeimmät parametrit:
missing_value: tunniste, jota pidetään puuttuvana (oletusnp.nan);strategy: menetelmä aukkojen täyttämiseen (oletus'mean');fill_value: käytetään, kunstrategy='constant'.
Transformerina se tarjoaa metodit kuten .fit(), .transform() ja .fit_transform().
Puuttuvien arvojen täyttötavan valinta on oleellista. Yleinen lähestymistapa:
- numeeriset ominaisuudet → keskiarvo;
- kategoriset ominaisuudet → yleisin arvo.
strategy-vaihtoehdot:
'mean'— täyttö keskiarvolla;'median'— täyttö mediaanilla;'most_frequent'— täyttö moodilla;'constant'— täyttö määritetyllä arvollafill_value.
missing_values määrittää, mitkä arvot tulkitaan puuttuviksi (oletus NaN, mutta voi olla myös '' tai muu merkki).
SimpleImputer odottaa DataFrame-rakennetta, ei Seriesiä.
Yksisarakkeinen DataFrame valitaan kaksois-sulkeilla:
imputer.fit_transform(df[['column']])
fit_transform() palauttaa 2D-taulukon, mutta DataFrame-sarakkeeseen tallentaminen vaatii 1D-taulukon.
Tasoita tulos käyttämällä .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sinulle annetaan DataFrame nimeltä df, joka sisältää pingviinien tietoja. Sarakkeessa 'sex' on puuttuvia arvoja. Täydennä ne käyttämällä yleisintä kategoriaa.
- Tuo
SimpleImputer; - Luo imputteri käyttäen
strategy='most_frequent'; - Käytä sitä
df[['sex']]-sarakkeeseen; - Aseta imputoidut arvot takaisin
df['sex']-sarakkeeseen.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to use SimpleImputer with categorical data?
What happens if my data has multiple types of missing value markers?
Can you show an example of using a different strategy, like 'median'?
Awesome!
Completion rate improved to 3.13
Haaste: Puuttuvien Arvojen Imputointi
Pyyhkäise näyttääksesi valikon
SimpleImputer-luokka korvaa puuttuvat arvot automaattisesti.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Tärkeimmät parametrit:
missing_value: tunniste, jota pidetään puuttuvana (oletusnp.nan);strategy: menetelmä aukkojen täyttämiseen (oletus'mean');fill_value: käytetään, kunstrategy='constant'.
Transformerina se tarjoaa metodit kuten .fit(), .transform() ja .fit_transform().
Puuttuvien arvojen täyttötavan valinta on oleellista. Yleinen lähestymistapa:
- numeeriset ominaisuudet → keskiarvo;
- kategoriset ominaisuudet → yleisin arvo.
strategy-vaihtoehdot:
'mean'— täyttö keskiarvolla;'median'— täyttö mediaanilla;'most_frequent'— täyttö moodilla;'constant'— täyttö määritetyllä arvollafill_value.
missing_values määrittää, mitkä arvot tulkitaan puuttuviksi (oletus NaN, mutta voi olla myös '' tai muu merkki).
SimpleImputer odottaa DataFrame-rakennetta, ei Seriesiä.
Yksisarakkeinen DataFrame valitaan kaksois-sulkeilla:
imputer.fit_transform(df[['column']])
fit_transform() palauttaa 2D-taulukon, mutta DataFrame-sarakkeeseen tallentaminen vaatii 1D-taulukon.
Tasoita tulos käyttämällä .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sinulle annetaan DataFrame nimeltä df, joka sisältää pingviinien tietoja. Sarakkeessa 'sex' on puuttuvia arvoja. Täydennä ne käyttämällä yleisintä kategoriaa.
- Tuo
SimpleImputer; - Luo imputteri käyttäen
strategy='most_frequent'; - Käytä sitä
df[['sex']]-sarakkeeseen; - Aseta imputoidut arvot takaisin
df['sex']-sarakkeeseen.
Ratkaisu
Kiitos palautteestasi!
single