Udfordring: Imputering af Manglende Værdier
Klassen SimpleImputer erstatter automatisk manglende værdier.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Væsentlige parametre:
missing_value: pladsholder behandlet som manglende (standardnp.nan);strategy: metode til udfyldning af huller (standard'mean');fill_value: anvendes nårstrategy='constant'.
Som transformer tilbyder den metoder som .fit(), .transform() og .fit_transform().
Valg af metode til udfyldning af manglende data er afgørende. En almindelig tilgang:
- numeriske træk → gennemsnit;
- kategoriske træk → hyppigste værdi.
Muligheder for strategy:
'mean'— udfyld med gennemsnit;'median'— udfyld med median;'most_frequent'— udfyld med typetal;'constant'— udfyld med en angivet værdi viafill_value.
missing_values definerer hvilke værdier, der behandles som manglende (standard NaN, men kan være '' eller et andet mærke).
SimpleImputer forventer en DataFrame, ikke en Series.
En enkeltkolonne-DataFrame skal vælges med dobbelte klammer:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men tildeling tilbage til en DataFrame-kolonne kræver et 1D-array.
Udflad resultatet ved at bruge .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du får en DataFrame df, der indeholder pingvindata. Kolonnen 'sex' har manglende værdier. Udfyld dem ved hjælp af den mest hyppige kategori.
- Importér
SimpleImputer; - Opret en imputer med
strategy='most_frequent'; - Anvend den på
df[['sex']]; - Tildel de imputerede værdier tilbage til
df['sex'].
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain how to use SimpleImputer with categorical data?
What happens if my data has multiple types of missing value markers?
Can you show an example of using a different strategy, like 'median'?
Awesome!
Completion rate improved to 3.13
Udfordring: Imputering af Manglende Værdier
Stryg for at vise menuen
Klassen SimpleImputer erstatter automatisk manglende værdier.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Væsentlige parametre:
missing_value: pladsholder behandlet som manglende (standardnp.nan);strategy: metode til udfyldning af huller (standard'mean');fill_value: anvendes nårstrategy='constant'.
Som transformer tilbyder den metoder som .fit(), .transform() og .fit_transform().
Valg af metode til udfyldning af manglende data er afgørende. En almindelig tilgang:
- numeriske træk → gennemsnit;
- kategoriske træk → hyppigste værdi.
Muligheder for strategy:
'mean'— udfyld med gennemsnit;'median'— udfyld med median;'most_frequent'— udfyld med typetal;'constant'— udfyld med en angivet værdi viafill_value.
missing_values definerer hvilke værdier, der behandles som manglende (standard NaN, men kan være '' eller et andet mærke).
SimpleImputer forventer en DataFrame, ikke en Series.
En enkeltkolonne-DataFrame skal vælges med dobbelte klammer:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men tildeling tilbage til en DataFrame-kolonne kræver et 1D-array.
Udflad resultatet ved at bruge .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du får en DataFrame df, der indeholder pingvindata. Kolonnen 'sex' har manglende værdier. Udfyld dem ved hjælp af den mest hyppige kategori.
- Importér
SimpleImputer; - Opret en imputer med
strategy='most_frequent'; - Anvend den på
df[['sex']]; - Tildel de imputerede værdier tilbage til
df['sex'].
Løsning
Tak for dine kommentarer!
single