Utfordring: Imputering av Manglende Verdier
Klassen SimpleImputer erstatter manglende verdier automatisk.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Viktige parametere:
missing_value: plassholder som behandles som manglende (standardnp.nan);strategy: metode for å fylle hull ('mean'som standard);fill_value: brukes nårstrategy='constant'.
Som en transformer tilbyr den metoder som .fit(), .transform() og .fit_transform().
Valg av metode for å fylle manglende data er avgjørende. En vanlig tilnærming:
- numeriske egenskaper → gjennomsnitt;
- kategoriske egenskaper → mest vanlige verdi.
Alternativer for strategy:
'mean'— fyll med gjennomsnitt;'median'— fyll med median;'most_frequent'— fyll med modus;'constant'— fyll med en spesifisert verdi viafill_value.
missing_values definerer hvilke verdier som behandles som manglende (standard NaN, men kan være '' eller en annen markør).
SimpleImputer forventer en DataFrame, ikke en Series.
En DataFrame med én kolonne må velges med doble klammeparenteser:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men å tilordne tilbake til en DataFrame-kolonne krever et 1D-array.
Flat ut resultatet ved å bruke .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du har fått en DataFrame df med pingvindata. Kolonnen 'sex' har manglende verdier. Fyll inn disse ved å bruke den mest vanlige kategorien.
- Importer
SimpleImputer; - Opprett en imputer med
strategy='most_frequent'; - Bruk den på
df[['sex']]; - Tildel de imputerte verdiene tilbake til
df['sex'].
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain how to use SimpleImputer with categorical data?
What happens if my data has multiple types of missing value markers?
Can you show an example of using a different strategy, like 'median'?
Awesome!
Completion rate improved to 3.13
Utfordring: Imputering av Manglende Verdier
Sveip for å vise menyen
Klassen SimpleImputer erstatter manglende verdier automatisk.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Viktige parametere:
missing_value: plassholder som behandles som manglende (standardnp.nan);strategy: metode for å fylle hull ('mean'som standard);fill_value: brukes nårstrategy='constant'.
Som en transformer tilbyr den metoder som .fit(), .transform() og .fit_transform().
Valg av metode for å fylle manglende data er avgjørende. En vanlig tilnærming:
- numeriske egenskaper → gjennomsnitt;
- kategoriske egenskaper → mest vanlige verdi.
Alternativer for strategy:
'mean'— fyll med gjennomsnitt;'median'— fyll med median;'most_frequent'— fyll med modus;'constant'— fyll med en spesifisert verdi viafill_value.
missing_values definerer hvilke verdier som behandles som manglende (standard NaN, men kan være '' eller en annen markør).
SimpleImputer forventer en DataFrame, ikke en Series.
En DataFrame med én kolonne må velges med doble klammeparenteser:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men å tilordne tilbake til en DataFrame-kolonne krever et 1D-array.
Flat ut resultatet ved å bruke .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du har fått en DataFrame df med pingvindata. Kolonnen 'sex' har manglende verdier. Fyll inn disse ved å bruke den mest vanlige kategorien.
- Importer
SimpleImputer; - Opprett en imputer med
strategy='most_frequent'; - Bruk den på
df[['sex']]; - Tildel de imputerte verdiene tilbake til
df['sex'].
Løsning
Takk for tilbakemeldingene dine!
single