Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Sfida: Imputazione dei Valori Mancanti | Sezione
Fondamenti di Machine Learning
Sezione 1. Capitolo 9
single

single

bookSfida: Imputazione dei Valori Mancanti

Scorri per mostrare il menu

La classe SimpleImputer sostituisce automaticamente i valori mancanti.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Parametri principali:

  • missing_value: segnaposto considerato come mancante (predefinito np.nan);
  • strategy: metodo per riempire i valori mancanti ('mean' di default);
  • fill_value: utilizzato quando strategy='constant'.

Come trasformatore, fornisce metodi come .fit(), .transform() e .fit_transform().

La scelta di come riempire i dati mancanti è fondamentale. Approccio comune:

  • caratteristiche numeriche → media;
  • caratteristiche categoriche → valore più frequente.

Opzioni per strategy:

  • 'mean' — riempie con la media;
  • 'median' — riempie con la mediana;
  • 'most_frequent' — riempie con la moda;
  • 'constant' — riempie con un valore specificato tramite fill_value.

missing_values definisce quali valori sono considerati mancanti (predefinito NaN, ma può essere '' o un altro marcatore).

Note
Nota

SimpleImputer si aspetta un DataFrame, non una Series. Un DataFrame a singola colonna deve essere selezionato usando le doppie parentesi:

imputer.fit_transform(df[['column']])

fit_transform() restituisce un array 2D, ma assegnare il risultato a una colonna di un DataFrame richiede un array 1D. Appiattire il risultato utilizzando .ravel():

df['column'] = imputer.fit_transform(df[['column']]).ravel()
Compito

Scorri per iniziare a programmare

Ti viene fornito un DataFrame df contenente dati sui pinguini. La colonna 'sex' presenta valori mancanti. Riempili utilizzando la categoria più frequente.

  1. Importazione di SimpleImputer;
  2. Creazione di un imputer con strategy='most_frequent';
  3. Applicazione all'oggetto df[['sex']];
  4. Assegnazione dei valori imputati nuovamente a df['sex'].

Soluzione

Switch to desktopCambia al desktop per esercitarti nel mondo realeContinua da dove ti trovi utilizzando una delle opzioni seguenti
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 9
single

single

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

some-alt