Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Familiarizzazione con il Dataset | Preprocessing Dei Dati con Scikit-Learn
Introduzione al Machine Learning con Python

Familiarizzazione con il Dataset

Scorri per mostrare il menu

Iniziare la fase di preprocessing esplorando il dataset. Per tutto il corso verrà utilizzato il penguin dataset, con l'obiettivo di prevedere la specie di un pinguino.

quale pinguino

Sono disponibili tre possibili opzioni, spesso chiamate classi nell'apprendimento automatico:

Pinguini

Le caratteristiche sono: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

Il dataset è memorizzato nel file penguins.csv. Può essere caricato da un link utilizzando la funzione pd.read_csv() per esaminarne il contenuto:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))

Questo dataset presenta diversi problemi che devono essere affrontati:

  • Dati mancanti;
  • Variabili categoriche;
  • Scale delle caratteristiche differenti.

Dati mancanti

La maggior parte degli algoritmi di ML non può elaborare direttamente i valori mancanti, quindi questi devono essere gestiti prima dell'addestramento. I valori mancanti possono essere rimossi oppure imputati (sostituiti con valori alternativi).

In pandas, le celle vuote sono rappresentate come NaN. Molti modelli di ML genereranno un errore se il dataset contiene anche un solo NaN.

Valori mancanti

Dati Categoriali

Il dataset include variabili categoriali, che i modelli di machine learning non sono in grado di elaborare direttamente.

Colonne categoriali

I dati categoriali devono essere codificati in forma numerica.

Scale differenti

I valori di 'culmen_depth_mm' variano da 13.1 a 21.5, mentre i valori di 'body_mass_g' variano da 2700 a 6300. Per questo motivo, alcuni modelli di ML possono considerare la caratteristica 'body_mass_g' molto più importante rispetto a 'culmen_depth_mm'.

Scala differente

La scalatura risolve questo problema. Verrà trattata nei capitoli successivi.

question-icon

Abbina il problema al modo per risolverlo.

Missing values –
Categorical data –

Different Scales –

Clicca o trascina gli elementi e riempi gli spazi vuoti

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 2

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 2. Capitolo 2
some-alt