Uitdaging: Imputeren van Ontbrekende Waarden
De klasse SimpleImputer vervangt ontbrekende waarden automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Belangrijkste parameters:
missing_value: aanduiding die als ontbrekend wordt beschouwd (standaardnp.nan);strategy: methode voor het opvullen van ontbrekende waarden ('mean'standaard);fill_value: gebruikt wanneerstrategy='constant'is.
Als transformer biedt het methoden zoals .fit(), .transform(), en .fit_transform().
De keuze voor het opvullen van ontbrekende data is essentieel. Een gangbare aanpak:
- numerieke kenmerken → gemiddelde;
- categorische kenmerken → meest voorkomende waarde.
Opties voor strategy:
'mean'— opvullen met het gemiddelde;'median'— opvullen met de mediaan;'most_frequent'— opvullen met de modus;'constant'— opvullen met een opgegeven waarde viafill_value.
Met missing_values wordt bepaald welke waarden als ontbrekend worden beschouwd (standaard NaN, maar kan ook '' of een andere aanduiding zijn).
SimpleImputer verwacht een DataFrame, geen Series.
Een DataFrame met één kolom moet geselecteerd worden met dubbele blokhaken:
imputer.fit_transform(df[['column']])
fit_transform() retourneert een 2D-array, maar toewijzen aan een DataFrame-kolom vereist een 1D array.
Maak het resultaat plat met .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Je krijgt een DataFrame df met gegevens over pinguïns. De kolom 'sex' bevat ontbrekende waarden. Vul deze aan met de meest voorkomende categorie.
- Importeer
SimpleImputer; - Maak een imputer aan met
strategy='most_frequent'; - Pas deze toe op
df[['sex']]; - Wijs de geïmputeerde waarden toe aan
df['sex'].
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain how to use SimpleImputer with categorical data?
What happens if my data has multiple types of missing value markers?
Can you show an example of using a different strategy, like 'median'?
Awesome!
Completion rate improved to 3.13
Uitdaging: Imputeren van Ontbrekende Waarden
Veeg om het menu te tonen
De klasse SimpleImputer vervangt ontbrekende waarden automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Belangrijkste parameters:
missing_value: aanduiding die als ontbrekend wordt beschouwd (standaardnp.nan);strategy: methode voor het opvullen van ontbrekende waarden ('mean'standaard);fill_value: gebruikt wanneerstrategy='constant'is.
Als transformer biedt het methoden zoals .fit(), .transform(), en .fit_transform().
De keuze voor het opvullen van ontbrekende data is essentieel. Een gangbare aanpak:
- numerieke kenmerken → gemiddelde;
- categorische kenmerken → meest voorkomende waarde.
Opties voor strategy:
'mean'— opvullen met het gemiddelde;'median'— opvullen met de mediaan;'most_frequent'— opvullen met de modus;'constant'— opvullen met een opgegeven waarde viafill_value.
Met missing_values wordt bepaald welke waarden als ontbrekend worden beschouwd (standaard NaN, maar kan ook '' of een andere aanduiding zijn).
SimpleImputer verwacht een DataFrame, geen Series.
Een DataFrame met één kolom moet geselecteerd worden met dubbele blokhaken:
imputer.fit_transform(df[['column']])
fit_transform() retourneert een 2D-array, maar toewijzen aan een DataFrame-kolom vereist een 1D array.
Maak het resultaat plat met .ravel():
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Je krijgt een DataFrame df met gegevens over pinguïns. De kolom 'sex' bevat ontbrekende waarden. Vul deze aan met de meest voorkomende categorie.
- Importeer
SimpleImputer; - Maak een imputer aan met
strategy='most_frequent'; - Pas deze toe op
df[['sex']]; - Wijs de geïmputeerde waarden toe aan
df['sex'].
Oplossing
Bedankt voor je feedback!
single