Set di addestramento
Scorri per mostrare il menu
Nel learning supervisionato o non supervisionato, il training set è solitamente presentato in formato tabellare.
Un esempio è il diabetes dataset, utilizzato per prevedere se una persona ha il diabete. Contiene i record di 768 donne con parametri come età, indice di massa corporea e pressione sanguigna. Questi parametri sono chiamati feature.
Il dataset include anche una colonna 'Outcome' che indica se la persona ha il diabete. Questa è la variabile target.
Ogni riga della tabella rappresenta un'istanza (chiamata anche data point o sample), che rappresenta le informazioni relative a un singolo individuo.
La tabella (training set) contiene una colonna target, il che significa che è etichettata.
Il compito è addestrare il modello ML su questo training set e, una volta addestrato, può prevedere per altre persone (nuove istanze) se hanno il diabete basandosi solo sulle feature.
Questo training set è un esempio di dataset distorto poiché contiene esclusivamente informazioni su donne di almeno 21 anni. Di conseguenza, il modello potrebbe produrre previsioni meno accurate per uomini o per donne sotto i 21 anni, poiché non è stato addestrato su questi gruppi.
Durante la programmazione, le colonne delle feature sono solitamente assegnate a X e le colonne target assegnate come y.
E le caratteristiche delle nuove istanze sono assegnate come X_new.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione