Udfordring: Imputering af Manglende Værdier
SimpleImputer-klassen erstatter manglende værdier automatisk.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Væsentlige parametre:
missing_value: pladsholder, der behandles som manglende (standardnp.nan);strategy: metode til udfyldning af huller ('mean'som standard);fill_value: anvendes, nårstrategy='constant'.
Som transformer tilbyder den metoder som .fit(), .transform() og .fit_transform().
Valg af metode til udfyldning af manglende data er afgørende. En almindelig tilgang:
- numeriske egenskaber → gennemsnit;
- kategoriske egenskaber → hyppigste værdi.
Muligheder for strategy:
'mean'— udfyld med gennemsnit;'median'— udfyld med median;'most_frequent'— udfyld med typetal;'constant'— udfyld med en angivet værdi viafill_value.
missing_values definerer, hvilke værdier der behandles som manglende (standard NaN, men kan være '' eller en anden markør).
SimpleImputer forventer en DataFrame, ikke en Series.
En DataFrame med én kolonne skal vælges med dobbelte klammer:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men tildeling tilbage til en DataFrame-kolonne kræver et 1D-array.
Udflad resultatet ved at bruge .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du får en DataFrame df, der indeholder pingvindata. Kolonnen 'sex' har manglende værdier. Udfyld dem ved hjælp af den mest hyppige kategori.
- Importér
SimpleImputer; - Opret en imputer med
strategy='most_frequent'; - Anvend den på
df[['sex']]; - Tildel de imputede værdier tilbage til
df['sex'].
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Fantastisk!
Completion rate forbedret til 4.55
Udfordring: Imputering af Manglende Værdier
Stryg for at vise menuen
SimpleImputer-klassen erstatter manglende værdier automatisk.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Væsentlige parametre:
missing_value: pladsholder, der behandles som manglende (standardnp.nan);strategy: metode til udfyldning af huller ('mean'som standard);fill_value: anvendes, nårstrategy='constant'.
Som transformer tilbyder den metoder som .fit(), .transform() og .fit_transform().
Valg af metode til udfyldning af manglende data er afgørende. En almindelig tilgang:
- numeriske egenskaber → gennemsnit;
- kategoriske egenskaber → hyppigste værdi.
Muligheder for strategy:
'mean'— udfyld med gennemsnit;'median'— udfyld med median;'most_frequent'— udfyld med typetal;'constant'— udfyld med en angivet værdi viafill_value.
missing_values definerer, hvilke værdier der behandles som manglende (standard NaN, men kan være '' eller en anden markør).
SimpleImputer forventer en DataFrame, ikke en Series.
En DataFrame med én kolonne skal vælges med dobbelte klammer:
imputer.fit_transform(df[['column']])
fit_transform() returnerer et 2D-array, men tildeling tilbage til en DataFrame-kolonne kræver et 1D-array.
Udflad resultatet ved at bruge .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du får en DataFrame df, der indeholder pingvindata. Kolonnen 'sex' har manglende værdier. Udfyld dem ved hjælp af den mest hyppige kategori.
- Importér
SimpleImputer; - Opret en imputer med
strategy='most_frequent'; - Anvend den på
df[['sex']]; - Tildel de imputede værdier tilbage til
df['sex'].
Løsning
Tak for dine kommentarer!
single