Scorri per mostrare il menu

Nel learning supervisionato o non supervisionato, il training set è solitamente presentato in formato tabellare.

Un esempio è il diabetes dataset, utilizzato per prevedere se una persona ha il diabete. Contiene i record di 768 donne con parametri come età, indice di massa corporea e pressione sanguigna. Questi parametri sono chiamati feature.

Il dataset include anche una colonna 'Outcome' che indica se la persona ha il diabete. Questa è la variabile target.

Ogni riga della tabella rappresenta un'istanza (chiamata anche data point o sample), che rappresenta le informazioni relative a un singolo individuo.

La tabella (training set) contiene una colonna target, il che significa che è etichettata.

Il compito è addestrare il modello ML su questo training set e, una volta addestrato, può prevedere per altre persone (nuove istanze) se hanno il diabete basandosi solo sulle feature.

Nota

Questo training set è un esempio di dataset distorto poiché contiene esclusivamente informazioni su donne di almeno 21 anni. Di conseguenza, il modello potrebbe produrre previsioni meno accurate per uomini o per donne sotto i 21 anni, poiché non è stato addestrato su questi gruppi.

Durante la programmazione, le colonne delle feature sono solitamente assegnate a X e le colonne target assegnate come y.

E le caratteristiche delle nuove istanze sono assegnate come X_new.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 3

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Set di addestramento