Utfordring: Imputering av Manglende Verdier
SimpleImputer-klassen erstatter manglende verdier automatisk.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Viktige parametere:
missing_value: plassholder som behandles som manglende (standardnp.nan);strategy: metode for utfylling av manglende verdier ('mean'som standard);fill_value: brukes nårstrategy='constant'.
Som en transformer tilbyr den metodene .fit(), .transform() og .fit_transform().
Valg av metode for å fylle inn manglende data er avgjørende. En vanlig tilnærming:
- numeriske egenskaper → gjennomsnitt;
- kategoriske egenskaper → mest vanlige verdi.
Alternativer for strategy:
'mean'— fyll med gjennomsnitt;'median'— fyll med median;'most_frequent'— fyll med modus;'constant'— fyll med en spesifisert verdi viafill_value.
missing_values definerer hvilke verdier som behandles som manglende (standard NaN, men kan være '' eller en annen markør).
SimpleImputer forventer en DataFrame, ikke en Series.
En DataFrame med én kolonne må velges med doble klammeparenteser:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men å tilordne tilbake til en DataFrame-kolonne krever et 1D-array.
Flat ut resultatet ved å bruke .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du har fått en DataFrame df som inneholder pingvindata. Kolonnen 'sex' har manglende verdier. Fyll inn disse ved å bruke den mest vanlige kategorien.
- Importer
SimpleImputer; - Opprett en imputer med
strategy='most_frequent'; - Bruk den på
df[['sex']]; - Tildel de imputerte verdiene tilbake til
df['sex'].
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Fantastisk!
Completion rate forbedret til 4.55
Utfordring: Imputering av Manglende Verdier
Sveip for å vise menyen
SimpleImputer-klassen erstatter manglende verdier automatisk.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Viktige parametere:
missing_value: plassholder som behandles som manglende (standardnp.nan);strategy: metode for utfylling av manglende verdier ('mean'som standard);fill_value: brukes nårstrategy='constant'.
Som en transformer tilbyr den metodene .fit(), .transform() og .fit_transform().
Valg av metode for å fylle inn manglende data er avgjørende. En vanlig tilnærming:
- numeriske egenskaper → gjennomsnitt;
- kategoriske egenskaper → mest vanlige verdi.
Alternativer for strategy:
'mean'— fyll med gjennomsnitt;'median'— fyll med median;'most_frequent'— fyll med modus;'constant'— fyll med en spesifisert verdi viafill_value.
missing_values definerer hvilke verdier som behandles som manglende (standard NaN, men kan være '' eller en annen markør).
SimpleImputer forventer en DataFrame, ikke en Series.
En DataFrame med én kolonne må velges med doble klammeparenteser:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men å tilordne tilbake til en DataFrame-kolonne krever et 1D-array.
Flat ut resultatet ved å bruke .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du har fått en DataFrame df som inneholder pingvindata. Kolonnen 'sex' har manglende verdier. Fyll inn disse ved å bruke den mest vanlige kategorien.
- Importer
SimpleImputer; - Opprett en imputer med
strategy='most_frequent'; - Bruk den på
df[['sex']]; - Tildel de imputerte verdiene tilbake til
df['sex'].
Løsning
Takk for tilbakemeldingene dine!
single