Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Familiarizzazione con il Dataset | Preprocessing Dei Dati Con Scikit-learn
Introduzione al ML con Scikit-Learn

bookFamiliarizzazione con il Dataset

Iniziamo la fase di preprocessing esplorando il dataset. Per tutto il corso utilizzeremo il penguin dataset. L'obiettivo è prevedere la specie di un pinguino.

Sono disponibili tre possibili opzioni, spesso chiamate classi nell'ambito del machine learning:

Le feature sono: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

I dati sono contenuti nel file penguins.csv. Caricheremo questo file da un link utilizzando la funzione pd.read_csv() e osserveremo il contenuto:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Osservando questo dataset, possiamo già individuare alcune problematiche da risolvere. Queste sono:

  • Dati mancanti;
  • Variabili categoriche;
  • Scale differenti.

Dati Mancanti

La maggior parte degli algoritmi di ML non gestisce automaticamente i valori mancanti, quindi è necessario rimuoverli (o sostituirli con alcuni valori, operazione chiamata imputazione) prima di fornire il set di addestramento a un modello.

pandas riempie le celle vuote della tabella con NaN. La maggior parte dei modelli di ML genererà un errore se è presente almeno un NaN nei dati.

Dati categorici

I dati contengono dati categorici, che sappiamo già non possono essere gestiti dai modelli di machine learning.

Quindi è necessario codificare i dati categorici in valori numerici.

Scale differenti

I valori di 'culmen_depth_mm' variano da 13.1 a 21.5, mentre i valori di 'body_mass_g' variano da 2700 a 6300. Per questo motivo, alcuni modelli di ML potrebbero considerare la caratteristica 'body_mass_g' molto più importante rispetto a 'culmen_depth_mm'.

La normalizzazione risolve questo problema. Verrà trattata nei capitoli successivi.

question-icon

Associa il problema al modo per risolverlo.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 2

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 3.13

bookFamiliarizzazione con il Dataset

Scorri per mostrare il menu

Iniziamo la fase di preprocessing esplorando il dataset. Per tutto il corso utilizzeremo il penguin dataset. L'obiettivo è prevedere la specie di un pinguino.

Sono disponibili tre possibili opzioni, spesso chiamate classi nell'ambito del machine learning:

Le feature sono: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

I dati sono contenuti nel file penguins.csv. Caricheremo questo file da un link utilizzando la funzione pd.read_csv() e osserveremo il contenuto:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Osservando questo dataset, possiamo già individuare alcune problematiche da risolvere. Queste sono:

  • Dati mancanti;
  • Variabili categoriche;
  • Scale differenti.

Dati Mancanti

La maggior parte degli algoritmi di ML non gestisce automaticamente i valori mancanti, quindi è necessario rimuoverli (o sostituirli con alcuni valori, operazione chiamata imputazione) prima di fornire il set di addestramento a un modello.

pandas riempie le celle vuote della tabella con NaN. La maggior parte dei modelli di ML genererà un errore se è presente almeno un NaN nei dati.

Dati categorici

I dati contengono dati categorici, che sappiamo già non possono essere gestiti dai modelli di machine learning.

Quindi è necessario codificare i dati categorici in valori numerici.

Scale differenti

I valori di 'culmen_depth_mm' variano da 13.1 a 21.5, mentre i valori di 'body_mass_g' variano da 2700 a 6300. Per questo motivo, alcuni modelli di ML potrebbero considerare la caratteristica 'body_mass_g' molto più importante rispetto a 'culmen_depth_mm'.

La normalizzazione risolve questo problema. Verrà trattata nei capitoli successivi.

question-icon

Associa il problema al modo per risolverlo.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 2
some-alt