La classe `SimpleImputer` sostituisce automaticamente i valori mancanti.

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
```

Parametri principali:

* `missing_value`: segnaposto considerato come mancante (predefinito `np.nan`);
* `strategy`: metodo per riempire i valori mancanti (`'mean'` predefinito);
* `fill_value`: utilizzato quando `strategy='constant'`.

Come trasformatore, fornisce metodi come `.fit()`, `.transform()` e `.fit_transform()`.

La scelta di come riempire i dati mancanti è fondamentale. Approccio comune:

* caratteristiche numeriche → **media**;
* caratteristiche categoriche → **valore più frequente**.

Opzioni per `strategy`:

* `'mean'` — riempie con la media;
* `'median'` — riempie con la mediana;
* `'most_frequent'` — riempie con la moda;
* `'constant'` — riempie con un valore specificato tramite `fill_value`.

`missing_values` definisce quali valori sono considerati mancanti (predefinito `NaN`, ma può essere `''` o un altro marcatore).

`SimpleImputer` si aspetta un **DataFrame**, non una Series.
Un DataFrame a singola colonna deve essere selezionato utilizzando le doppie parentesi quadre:

```python
imputer.fit_transform(df[['column']])
```

Nota

`fit_transform()` restituisce un **array 2D**, ma l'assegnazione a una colonna di un DataFrame richiede un array **1D**.
Appiattire il risultato utilizzando `.ravel()`:

```python
df['column'] = imputer.fit_transform(df[['column']]).ravel()
```

import unittest
import pandas as pd

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestSimpleImputerMostFrequent(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ñ Ð´Ð°Ð½Ñ Ð±ÐµÐ· ÑÐ¼Ð¿ÑÑÐ°ÑÑÐ¹
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]

        import user_code
        cls.user_code = user_code

    def test_uses_simpleimputer_most_frequent(self):
        from sklearn.impute import SimpleImputer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'imputer', None), SimpleImputer) and getattr(uc.imputer, 'strategy', None) == 'most_frequent'
        _dynamic_test(
            self,
            cond,
            "Used SimpleImputer with strategy='most_frequent'",
            "You must use sklearn.impute.SimpleImputer with strategy='most_frequent'"
        )

    def test_no_nans_in_sex(self):
        uc = self.user_code
        cond = 'sex' in uc.df.columns and not uc.df['sex'].isna().any()
        _dynamic_test(
            self,
            cond,
            "Column 'sex' contains no NaN after imputation",
            "Column 'sex' still contains NaN values after imputation"
        )

    def test_nans_reduced_vs_raw(self):
        raw_nans = self.df_raw['sex'].isna().sum()
        uc = self.user_code
        after_nans = uc.df['sex'].isna().sum() if 'sex' in uc.df.columns else raw_nans
        cond = raw_nans > 0 and after_nans < raw_nans
        _dynamic_test(
            self,
            cond,
            "Number of NaN in 'sex' decreased compared to raw data",
            "The number of NaN in 'sex' did not decrease compared to raw data"
        )

    def test_imputer_fitted_on_sex_mode(self):
        uc = self.user_code
        has_stats = hasattr(getattr(uc, 'imputer', object()), 'statistics_')
        try:
            mode_val = uc.df['sex'].mode(dropna=True).iloc[0]
        except Exception:
            mode_val = None
        stats_match = False
        if has_stats and getattr(uc.imputer, 'statistics_', None) is not None and len(uc.imputer.statistics_) > 0:
            stats_match = uc.imputer.statistics_[0] == mode_val
        cond = has_stats and stats_match
        _dynamic_test(
            self,
            cond,
            "Imputer appears fitted on 'sex' (statistics_ matches column mode)",
            "Imputer does not seem fitted correctly on 'sex' (statistics_ mismatch)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

L'apprendimento automatico è ormai utilizzato ovunque. Vuoi impararlo anche tu? Questo corso è un'introduzione al mondo del machine learning per apprendere i concetti di base, lavorare con scikit-learn – la libreria più popolare per ML – e realizzare il tuo primo progetto di machine learning.
Questo corso è rivolto a studenti con conoscenze di base di Python, Pandas e Numpy.

Apprendere i concetti di Machine Learning e il flusso di lavoro di un progetto ML.

Il preprocessing è probabilmente la fase più importante di un progetto di ML. Questo capitolo tratta le fasi di preprocessing necessarie per quasi qualsiasi dataset.

Una pipeline è un modo ordinato per combinare tutti i passaggi di pre-elaborazione insieme a un modello. Le pipeline rendono molto più semplice addestrare e utilizzare un modello.

La modellazione è la fase più interessante di un progetto di ML. Impariamo a costruire, ottimizzare e valutare il modello!

Sfida: Imputazione dei Valori Mancanti

Soluzione