La classe `SimpleImputer` remplace automatiquement les valeurs manquantes.

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
```

Principaux paramètres :

* `missing_value` : valeur utilisée comme indicateur de données manquantes (par défaut `np.nan`) ;
* `strategy` : méthode de remplissage des valeurs manquantes (`'mean'` par défaut) ;
* `fill_value` : valeur utilisée lorsque `strategy='constant'`.

En tant que transformateur, elle propose des méthodes telles que `.fit()`, `.transform()` et `.fit_transform()`.

Le choix de la méthode de remplissage des données manquantes est essentiel. Approche courante :

* variables numériques → **moyenne** ;
* variables catégorielles → **valeur la plus fréquente**.

Options pour `strategy` :

* `'mean'` — remplir avec la moyenne ;
* `'median'` — remplir avec la médiane ;
* `'most_frequent'` — remplir avec la valeur la plus fréquente ;
* `'constant'` — remplir avec une valeur spécifiée via `fill_value`.

`missing_values` définit quelles valeurs sont considérées comme manquantes (par défaut `NaN`, mais peut être `''` ou un autre indicateur).

`SimpleImputer` attend un **DataFrame**, et non une Series.
Une DataFrame à une seule colonne doit être sélectionnée à l'aide de doubles crochets :

```python
imputer.fit_transform(df[['column']])
```

Remarque

`fit_transform()` retourne un **tableau 2D**, mais l'affectation à une colonne de DataFrame nécessite un tableau **1D**.
Aplatir le résultat avec `.ravel()` :

```python
df['column'] = imputer.fit_transform(df[['column']]).ravel()
```

import unittest
import pandas as pd

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestSimpleImputerMostFrequent(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ñ Ð´Ð°Ð½Ñ Ð±ÐµÐ· ÑÐ¼Ð¿ÑÑÐ°ÑÑÐ¹
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]

        import user_code
        cls.user_code = user_code

    def test_uses_simpleimputer_most_frequent(self):
        from sklearn.impute import SimpleImputer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'imputer', None), SimpleImputer) and getattr(uc.imputer, 'strategy', None) == 'most_frequent'
        _dynamic_test(
            self,
            cond,
            "Used SimpleImputer with strategy='most_frequent'",
            "You must use sklearn.impute.SimpleImputer with strategy='most_frequent'"
        )

    def test_no_nans_in_sex(self):
        uc = self.user_code
        cond = 'sex' in uc.df.columns and not uc.df['sex'].isna().any()
        _dynamic_test(
            self,
            cond,
            "Column 'sex' contains no NaN after imputation",
            "Column 'sex' still contains NaN values after imputation"
        )

    def test_nans_reduced_vs_raw(self):
        raw_nans = self.df_raw['sex'].isna().sum()
        uc = self.user_code
        after_nans = uc.df['sex'].isna().sum() if 'sex' in uc.df.columns else raw_nans
        cond = raw_nans > 0 and after_nans < raw_nans
        _dynamic_test(
            self,
            cond,
            "Number of NaN in 'sex' decreased compared to raw data",
            "The number of NaN in 'sex' did not decrease compared to raw data"
        )

    def test_imputer_fitted_on_sex_mode(self):
        uc = self.user_code
        has_stats = hasattr(getattr(uc, 'imputer', object()), 'statistics_')
        try:
            mode_val = uc.df['sex'].mode(dropna=True).iloc[0]
        except Exception:
            mode_val = None
        stats_match = False
        if has_stats and getattr(uc.imputer, 'statistics_', None) is not None and len(uc.imputer.statistics_) > 0:
            stats_match = uc.imputer.statistics_[0] == mode_val
        cond = has_stats and stats_match
        _dynamic_test(
            self,
            cond,
            "Imputer appears fitted on 'sex' (statistics_ matches column mode)",
            "Imputer does not seem fitted correctly on 'sex' (statistics_ mismatch)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

L'apprentissage automatique est désormais utilisé partout. Vous souhaitez l'apprendre vous-même ? Ce cours constitue une introduction au monde de l'apprentissage automatique afin de vous permettre d'acquérir les concepts de base, de travailler avec Scikit-learn – la bibliothèque la plus populaire pour le ML – et de réaliser votre premier projet d'apprentissage automatique.
Ce cours s'adresse aux étudiants ayant des connaissances de base en Python, Pandas et Numpy.

Découvrez les concepts de l'apprentissage automatique et le flux de travail d'un projet ML.

Le prétraitement est probablement l’étape la plus importante d’un projet ML. Ce chapitre couvre les étapes de prétraitement nécessaires pour presque tout jeu de données.

Un pipeline est une méthode élégante pour combiner toutes les étapes de prétraitement ainsi qu’un modèle. Les pipelines facilitent grandement l’entraînement et l’utilisation d’un modèle.

La modélisation est l'étape la plus intéressante d'un projet ML. Apprenons à construire, ajuster et évaluer le modèle !

Défi : Imputation des valeurs manquantes

Solution