Die Klasse `SimpleImputer` ersetzt fehlende Werte automatisch.

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
```

Wichtige Parameter:

* `missing_value`: Platzhalter, der als fehlend behandelt wird (Standard: `np.nan`);
* `strategy`: Methode zum Auffüllen der Lücken (Standard: `'mean'`);
* `fill_value`: Wird verwendet, wenn `strategy='constant'`.

Als Transformer bietet sie Methoden wie `.fit()`, `.transform()` und `.fit_transform()`.

Die Auswahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:

* numerische Merkmale → **Mittelwert**;
* kategoriale Merkmale → **häufigster Wert**.

`strategy`-Optionen:

* `'mean'` — Auffüllen mit Mittelwert;
* `'median'` — Auffüllen mit Median;
* `'most_frequent'` — Auffüllen mit Modus;
* `'constant'` — Auffüllen mit einem angegebenen Wert über `fill_value`.

`missing_values` definiert, welche Werte als fehlend betrachtet werden (Standard: `NaN`, kann aber auch `''` oder ein anderes Zeichen sein).

`SimpleImputer` erwartet ein **DataFrame**, keine Series.
Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:

```python
imputer.fit_transform(df[['column']])
```

Hinweis

`fit_transform()` gibt ein **2D-Array** zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein **1D-Array**.
Das Ergebnis mit `.ravel()` flach machen:

```python
df['column'] = imputer.fit_transform(df[['column']]).ravel()
```

import unittest
import pandas as pd

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestSimpleImputerMostFrequent(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ñ Ð´Ð°Ð½Ñ Ð±ÐµÐ· ÑÐ¼Ð¿ÑÑÐ°ÑÑÐ¹
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]

        import user_code
        cls.user_code = user_code

    def test_uses_simpleimputer_most_frequent(self):
        from sklearn.impute import SimpleImputer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'imputer', None), SimpleImputer) and getattr(uc.imputer, 'strategy', None) == 'most_frequent'
        _dynamic_test(
            self,
            cond,
            "Used SimpleImputer with strategy='most_frequent'",
            "You must use sklearn.impute.SimpleImputer with strategy='most_frequent'"
        )

    def test_no_nans_in_sex(self):
        uc = self.user_code
        cond = 'sex' in uc.df.columns and not uc.df['sex'].isna().any()
        _dynamic_test(
            self,
            cond,
            "Column 'sex' contains no NaN after imputation",
            "Column 'sex' still contains NaN values after imputation"
        )

    def test_nans_reduced_vs_raw(self):
        raw_nans = self.df_raw['sex'].isna().sum()
        uc = self.user_code
        after_nans = uc.df['sex'].isna().sum() if 'sex' in uc.df.columns else raw_nans
        cond = raw_nans > 0 and after_nans < raw_nans
        _dynamic_test(
            self,
            cond,
            "Number of NaN in 'sex' decreased compared to raw data",
            "The number of NaN in 'sex' did not decrease compared to raw data"
        )

    def test_imputer_fitted_on_sex_mode(self):
        uc = self.user_code
        has_stats = hasattr(getattr(uc, 'imputer', object()), 'statistics_')
        try:
            mode_val = uc.df['sex'].mode(dropna=True).iloc[0]
        except Exception:
            mode_val = None
        stats_match = False
        if has_stats and getattr(uc.imputer, 'statistics_', None) is not None and len(uc.imputer.statistics_) > 0:
            stats_match = uc.imputer.statistics_[0] == mode_val
        cond = has_stats and stats_match
        _dynamic_test(
            self,
            cond,
            "Imputer appears fitted on 'sex' (statistics_ matches column mode)",
            "Imputer does not seem fitted correctly on 'sex' (statistics_ mismatch)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Beherrschen Sie die Grundlagen des Machine Learning und der Scikit-learn-Bibliothek. Erforschen Sie den vollständigen ML-Workflow, von der Behandlung fehlender Werte und der Kodierung kategorialer Daten bis hin zur Skalierung von Merkmalen. Erstellen Sie effiziente, auslaufsichere Datenvorverarbeitungspipelines mit ColumnTransformer. Wandeln Sie Rohdatensätze in modellbereite Strukturen um und implementieren Sie robuste prädiktive Pipelines.

Herausforderung: Fehlende Werte Imputieren

Lösung