Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitdaging: Imputeren van Ontbrekende Waarden | Gegevens Preprocessen Met Scikit-learn
Quizzes & Challenges
Quizzes
Challenges
/
Introductie tot Machine Learning met Python

bookUitdaging: Imputeren van Ontbrekende Waarden

De klasse SimpleImputer vervangt ontbrekende waarden automatisch.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Belangrijkste parameters:

  • missing_value: aanduiding die als ontbrekend wordt beschouwd (standaard np.nan);
  • strategy: methode voor het opvullen van ontbrekende waarden ('mean' standaard);
  • fill_value: gebruikt wanneer strategy='constant' is.

Als transformer biedt het methoden zoals .fit(), .transform(), en .fit_transform().

De keuze voor het opvullen van ontbrekende data is essentieel. Een gangbare aanpak:

  • numerieke kenmerken → gemiddelde;
  • categorische kenmerken → meest voorkomende waarde.

Opties voor strategy:

  • 'mean' — opvullen met het gemiddelde;
  • 'median' — opvullen met de mediaan;
  • 'most_frequent' — opvullen met de modus;
  • 'constant' — opvullen met een opgegeven waarde via fill_value.

Met missing_values wordt bepaald welke waarden als ontbrekend worden beschouwd (standaard NaN, maar kan ook '' of een andere aanduiding zijn).

Note
Opmerking

SimpleImputer verwacht een DataFrame, geen Series. Een DataFrame met één kolom moet geselecteerd worden met dubbele blokhaken:

imputer.fit_transform(df[['column']])

fit_transform() retourneert een 2D-array, maar toewijzen aan een DataFrame-kolom vereist een 1D array. Maak het resultaat plat met .ravel():

df['column'] = imputer.fit_transform(df[['column']]).ravel()
Taak

Swipe to start coding

Je krijgt een DataFrame df met gegevens over pinguïns. De kolom 'sex' bevat ontbrekende waarden. Vul deze aan met de meest voorkomende categorie.

  1. Importeer SimpleImputer;
  2. Maak een imputer aan met strategy='most_frequent';
  3. Pas deze toe op df[['sex']];
  4. Wijs de geïmputeerde waarden toe aan df['sex'].

Oplossing

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 4
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain how to use SimpleImputer with categorical data?

What happens if my data has multiple types of missing value markers?

Can you show an example of using a different strategy, like 'median'?

close

bookUitdaging: Imputeren van Ontbrekende Waarden

Veeg om het menu te tonen

De klasse SimpleImputer vervangt ontbrekende waarden automatisch.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Belangrijkste parameters:

  • missing_value: aanduiding die als ontbrekend wordt beschouwd (standaard np.nan);
  • strategy: methode voor het opvullen van ontbrekende waarden ('mean' standaard);
  • fill_value: gebruikt wanneer strategy='constant' is.

Als transformer biedt het methoden zoals .fit(), .transform(), en .fit_transform().

De keuze voor het opvullen van ontbrekende data is essentieel. Een gangbare aanpak:

  • numerieke kenmerken → gemiddelde;
  • categorische kenmerken → meest voorkomende waarde.

Opties voor strategy:

  • 'mean' — opvullen met het gemiddelde;
  • 'median' — opvullen met de mediaan;
  • 'most_frequent' — opvullen met de modus;
  • 'constant' — opvullen met een opgegeven waarde via fill_value.

Met missing_values wordt bepaald welke waarden als ontbrekend worden beschouwd (standaard NaN, maar kan ook '' of een andere aanduiding zijn).

Note
Opmerking

SimpleImputer verwacht een DataFrame, geen Series. Een DataFrame met één kolom moet geselecteerd worden met dubbele blokhaken:

imputer.fit_transform(df[['column']])

fit_transform() retourneert een 2D-array, maar toewijzen aan een DataFrame-kolom vereist een 1D array. Maak het resultaat plat met .ravel():

df['column'] = imputer.fit_transform(df[['column']]).ravel()
Taak

Swipe to start coding

Je krijgt een DataFrame df met gegevens over pinguïns. De kolom 'sex' bevat ontbrekende waarden. Vul deze aan met de meest voorkomende categorie.

  1. Importeer SimpleImputer;
  2. Maak een imputer aan met strategy='most_frequent';
  3. Pas deze toe op df[['sex']];
  4. Wijs de geïmputeerde waarden toe aan df['sex'].

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 4
single

single

some-alt