Utmaning: Imputera Saknade Värden
Klassen SimpleImputer ersätter saknade värden automatiskt.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Dess viktigaste parametrar:
missing_value: platshållare som behandlas som saknad (standardnp.nan);strategy: metod för att fylla luckor ('mean'som standard);fill_value: används närstrategy='constant'.
Som en transformer tillhandahåller den metoder som .fit(), .transform() och .fit_transform().
Att välja hur saknade data ska fyllas är avgörande. En vanlig metod:
- numeriska egenskaper → medelvärde;
- kategoriska egenskaper → mest frekventa värdet.
Alternativ för strategy:
'mean'— fyll med medelvärde;'median'— fyll med median;'most_frequent'— fyll med typvärde;'constant'— fyll med ett angivet värde viafill_value.
missing_values definierar vilka värden som behandlas som saknade (standard NaN, men kan vara '' eller annan markör).
SimpleImputer förväntar sig en DataFrame, inte en Series.
En DataFrame med en kolumn måste väljas med dubbla hakparenteser:
imputer.fit_transform(df[['column']])
fit_transform() returnerar en 2D-array, men tilldelning tillbaka till en DataFrame-kolumn kräver en 1D-array.
Platta ut resultatet med .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du har fått en DataFrame df som innehåller pingvindata. Kolumnen 'sex' har saknade värden. Fyll dessa med den mest frekventa kategorin.
- Importera
SimpleImputer; - Skapa en imputerare med
strategy='most_frequent'; - Applicera den på
df[['sex']]; - Tilldela de imputerade värdena tillbaka till
df['sex'].
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain how to use SimpleImputer with categorical data?
What happens if my data has multiple types of missing value markers?
Can you show an example of using a different strategy, like 'median'?
Awesome!
Completion rate improved to 3.13
Utmaning: Imputera Saknade Värden
Svep för att visa menyn
Klassen SimpleImputer ersätter saknade värden automatiskt.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Dess viktigaste parametrar:
missing_value: platshållare som behandlas som saknad (standardnp.nan);strategy: metod för att fylla luckor ('mean'som standard);fill_value: används närstrategy='constant'.
Som en transformer tillhandahåller den metoder som .fit(), .transform() och .fit_transform().
Att välja hur saknade data ska fyllas är avgörande. En vanlig metod:
- numeriska egenskaper → medelvärde;
- kategoriska egenskaper → mest frekventa värdet.
Alternativ för strategy:
'mean'— fyll med medelvärde;'median'— fyll med median;'most_frequent'— fyll med typvärde;'constant'— fyll med ett angivet värde viafill_value.
missing_values definierar vilka värden som behandlas som saknade (standard NaN, men kan vara '' eller annan markör).
SimpleImputer förväntar sig en DataFrame, inte en Series.
En DataFrame med en kolumn måste väljas med dubbla hakparenteser:
imputer.fit_transform(df[['column']])
fit_transform() returnerar en 2D-array, men tilldelning tillbaka till en DataFrame-kolumn kräver en 1D-array.
Platta ut resultatet med .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Du har fått en DataFrame df som innehåller pingvindata. Kolumnen 'sex' har saknade värden. Fyll dessa med den mest frekventa kategorin.
- Importera
SimpleImputer; - Skapa en imputerare med
strategy='most_frequent'; - Applicera den på
df[['sex']]; - Tilldela de imputerade värdena tillbaka till
df['sex'].
Lösning
Tack för dina kommentarer!
single