La classe `SimpleImputer` remplace automatiquement les valeurs manquantes.

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
```

Ses paramètres principaux :

* `missing_value` : valeur considérée comme manquante (par défaut `np.nan`) ;
* `strategy` : méthode de remplissage des valeurs manquantes (`'mean'` par défaut) ;
* `fill_value` : utilisé lorsque `strategy='constant'`.

En tant que transformateur, elle propose des méthodes telles que `.fit()`, `.transform()` et `.fit_transform()`.

Le choix de la méthode de remplissage des données manquantes est essentiel. Approche courante :

* variables numériques → **moyenne** ;
* variables catégorielles → **valeur la plus fréquente**.

Options pour `strategy` :

* `'mean'` — remplissage par la moyenne ;
* `'median'` — remplissage par la médiane ;
* `'most_frequent'` — remplissage par la valeur la plus fréquente ;
* `'constant'` — remplissage par une valeur spécifiée via `fill_value`.

`missing_values` définit quelles valeurs sont considérées comme manquantes (par défaut `NaN`, mais peut être `''` ou un autre indicateur).

`SimpleImputer` attend un **DataFrame**, et non une Series.
Un DataFrame à une seule colonne doit être sélectionné avec une double paire de crochets :

```python
imputer.fit_transform(df[['column']])
```

Remarque

`fit_transform()` renvoie un **tableau 2D**, mais l'affectation à une colonne de DataFrame nécessite un tableau **1D**.
Aplatir le résultat avec `.ravel()` :

```python
df['column'] = imputer.fit_transform(df[['column']]).ravel()
```

import unittest
import pandas as pd

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestSimpleImputerMostFrequent(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ñ Ð´Ð°Ð½Ñ Ð±ÐµÐ· ÑÐ¼Ð¿ÑÑÐ°ÑÑÐ¹
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]

        import user_code
        cls.user_code = user_code

    def test_uses_simpleimputer_most_frequent(self):
        from sklearn.impute import SimpleImputer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'imputer', None), SimpleImputer) and getattr(uc.imputer, 'strategy', None) == 'most_frequent'
        _dynamic_test(
            self,
            cond,
            "Used SimpleImputer with strategy='most_frequent'",
            "You must use sklearn.impute.SimpleImputer with strategy='most_frequent'"
        )

    def test_no_nans_in_sex(self):
        uc = self.user_code
        cond = 'sex' in uc.df.columns and not uc.df['sex'].isna().any()
        _dynamic_test(
            self,
            cond,
            "Column 'sex' contains no NaN after imputation",
            "Column 'sex' still contains NaN values after imputation"
        )

    def test_nans_reduced_vs_raw(self):
        raw_nans = self.df_raw['sex'].isna().sum()
        uc = self.user_code
        after_nans = uc.df['sex'].isna().sum() if 'sex' in uc.df.columns else raw_nans
        cond = raw_nans > 0 and after_nans < raw_nans
        _dynamic_test(
            self,
            cond,
            "Number of NaN in 'sex' decreased compared to raw data",
            "The number of NaN in 'sex' did not decrease compared to raw data"
        )

    def test_imputer_fitted_on_sex_mode(self):
        uc = self.user_code
        has_stats = hasattr(getattr(uc, 'imputer', object()), 'statistics_')
        try:
            mode_val = uc.df['sex'].mode(dropna=True).iloc[0]
        except Exception:
            mode_val = None
        stats_match = False
        if has_stats and getattr(uc.imputer, 'statistics_', None) is not None and len(uc.imputer.statistics_) > 0:
            stats_match = uc.imputer.statistics_[0] == mode_val
        cond = has_stats and stats_match
        _dynamic_test(
            self,
            cond,
            "Imputer appears fitted on 'sex' (statistics_ matches column mode)",
            "Imputer does not seem fitted correctly on 'sex' (statistics_ mismatch)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Maîtriser les fondamentaux de l'apprentissage automatique et de la bibliothèque Scikit-learn. Explorer l'ensemble du flux de travail ML, de la gestion des valeurs manquantes et de l'encodage des données catégorielles à la mise à l'échelle des caractéristiques. Construire des pipelines de prétraitement des données efficaces et sans fuite à l'aide de ColumnTransformer. Transformer des ensembles de données bruts en structures prêtes pour les modèles et mettre en œuvre des pipelines prédictifs robustes.

Défi : Imputation des valeurs manquantes

Solution