single
Challenge: Puuttuvien Arvojen Imputointi
Pyyhkäise näyttääksesi valikon
SimpleImputer-luokka korvaa puuttuvat arvot automaattisesti.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Tärkeimmät parametrit:
missing_value: tunniste, jota pidetään puuttuvana (oletusnp.nan);strategy: tapa täyttää puuttuvat arvot (oletus'mean');fill_value: käytetään, kunstrategy='constant'.
Transformerina tarjoaa metodit kuten .fit(), .transform() ja .fit_transform().
Puuttuvien arvojen täyttötavan valinta on olennainen osa esikäsittelyä. Yleinen käytäntö:
- numeeriset ominaisuudet → keskiarvo;
- kategoriset ominaisuudet → yleisin arvo.
strategy-vaihtoehdot:
'mean'— täyttää keskiarvolla;'median'— täyttää mediaanilla;'most_frequent'— täyttää moodilla;'constant'— täyttää määritetyllä arvollafill_value-parametrin avulla.
missing_values määrittää, mitkä arvot tulkitaan puuttuviksi (oletus NaN, mutta voi olla myös '' tai muu merkki).
SimpleImputer odottaa DataFrame-rakennetta, ei Seriesiä.
Yksittäinen sarake DataFrame:stä tulee valita kaksois-sulkeilla:
imputer.fit_transform(df[['column']])
fit_transform() palauttaa 2D-taulukon, mutta DataFrame-sarakkeeseen sijoittaminen vaatii 1D-taulukon.
Tulos litistetään käyttämällä .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Pyyhkäise aloittaaksesi koodauksen
Sinulle annetaan DataFrame df, joka sisältää pingviinien tietoja. Sarakkeessa 'sex' on puuttuvia arvoja. Täydennä ne käyttämällä yleisintä kategoriaa.
- Tuo
SimpleImputer; - Luo imputer, jossa on
strategy='most_frequent'; - Käytä sitä
df[['sex']]-sarakkeeseen; - Aseta imputoidut arvot takaisin
df['sex']-sarakkeeseen.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme