De klasse `SimpleImputer` vervangt automatisch ontbrekende waarden.

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
```

Belangrijkste parameters:

* `missing_value`: aanduiding die als ontbrekend wordt beschouwd (standaard `np.nan`);
* `strategy`: methode voor het opvullen van ontbrekende waarden (standaard `'mean'`);
* `fill_value`: gebruikt wanneer `strategy='constant'` is.

Als transformer biedt het methoden zoals `.fit()`, `.transform()`, en `.fit_transform()`.

De keuze voor het opvullen van ontbrekende data is essentieel. Een veelgebruikte aanpak:

* numerieke kenmerken → **gemiddelde**;
* categorische kenmerken → **meest voorkomende waarde**.

Opties voor `strategy`:

* `'mean'` — opvullen met het gemiddelde;
* `'median'` — opvullen met de mediaan;
* `'most_frequent'` — opvullen met de modus;
* `'constant'` — opvullen met een opgegeven waarde via `fill_value`.

`missing_values` bepaalt welke waarden als ontbrekend worden beschouwd (standaard `NaN`, maar kan ook `''` of een andere aanduiding zijn).

`SimpleImputer` verwacht een **DataFrame**, geen Series.
Een DataFrame met één kolom moet geselecteerd worden met dubbele haken:

```python
imputer.fit_transform(df[['column']])
```

Opmerking

`fit_transform()` geeft een **2D-array** terug, maar toewijzen aan een DataFrame-kolom vereist een **1D** array.
Maak het resultaat plat met `.ravel()`:

```python
df['column'] = imputer.fit_transform(df[['column']]).ravel()
```

import unittest
import pandas as pd

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestSimpleImputerMostFrequent(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ñ Ð´Ð°Ð½Ñ Ð±ÐµÐ· ÑÐ¼Ð¿ÑÑÐ°ÑÑÐ¹
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]

        import user_code
        cls.user_code = user_code

    def test_uses_simpleimputer_most_frequent(self):
        from sklearn.impute import SimpleImputer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'imputer', None), SimpleImputer) and getattr(uc.imputer, 'strategy', None) == 'most_frequent'
        _dynamic_test(
            self,
            cond,
            "Used SimpleImputer with strategy='most_frequent'",
            "You must use sklearn.impute.SimpleImputer with strategy='most_frequent'"
        )

    def test_no_nans_in_sex(self):
        uc = self.user_code
        cond = 'sex' in uc.df.columns and not uc.df['sex'].isna().any()
        _dynamic_test(
            self,
            cond,
            "Column 'sex' contains no NaN after imputation",
            "Column 'sex' still contains NaN values after imputation"
        )

    def test_nans_reduced_vs_raw(self):
        raw_nans = self.df_raw['sex'].isna().sum()
        uc = self.user_code
        after_nans = uc.df['sex'].isna().sum() if 'sex' in uc.df.columns else raw_nans
        cond = raw_nans > 0 and after_nans < raw_nans
        _dynamic_test(
            self,
            cond,
            "Number of NaN in 'sex' decreased compared to raw data",
            "The number of NaN in 'sex' did not decrease compared to raw data"
        )

    def test_imputer_fitted_on_sex_mode(self):
        uc = self.user_code
        has_stats = hasattr(getattr(uc, 'imputer', object()), 'statistics_')
        try:
            mode_val = uc.df['sex'].mode(dropna=True).iloc[0]
        except Exception:
            mode_val = None
        stats_match = False
        if has_stats and getattr(uc.imputer, 'statistics_', None) is not None and len(uc.imputer.statistics_) > 0:
            stats_match = uc.imputer.statistics_[0] == mode_val
        cond = has_stats and stats_match
        _dynamic_test(
            self,
            cond,
            "Imputer appears fitted on 'sex' (statistics_ matches column mode)",
            "Imputer does not seem fitted correctly on 'sex' (statistics_ mismatch)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Challenge: Ontbrekende Waarden Imputeren

Oplossing