Set di Addestramento
Nel learning supervisionato o non supervisionato, il training set viene solitamente presentato in formato tabellare.
Un esempio è il diabetes dataset, utilizzato per prevedere se una persona ha il diabete. Contiene i record di 768 donne con parametri quali età, indice di massa corporea e pressione sanguigna. Questi parametri sono chiamati feature.
Il dataset include anche una colonna 'Outcome'
che indica se la persona ha il diabete. Questa è la variabile target.
Ogni riga della tabella rappresenta un'istanza (detta anche data point o sample), che rappresenta le informazioni relative a un singolo individuo.
La tabella (training set) contiene una colonna target, il che significa che è etichettata.
L'obiettivo è addestrare il modello di ML su questo training set e, una volta addestrato, potrà prevedere per altre persone (nuove istanze) la presenza di diabete basandosi solo sulle feature.
Questo training set è un esempio di dataset biased poiché contiene esclusivamente informazioni su donne di almeno 21 anni. Pertanto, il modello potrebbe produrre previsioni meno accurate per uomini o per donne sotto i 21 anni, poiché non è stato addestrato su questi gruppi.
Durante la programmazione, le colonne delle caratteristiche sono solitamente assegnate a X
e le colonne target assegnate come y
.
E le caratteristiche delle nuove istanze sono assegnate come X_new
.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 3.13
Set di Addestramento
Scorri per mostrare il menu
Nel learning supervisionato o non supervisionato, il training set viene solitamente presentato in formato tabellare.
Un esempio è il diabetes dataset, utilizzato per prevedere se una persona ha il diabete. Contiene i record di 768 donne con parametri quali età, indice di massa corporea e pressione sanguigna. Questi parametri sono chiamati feature.
Il dataset include anche una colonna 'Outcome'
che indica se la persona ha il diabete. Questa è la variabile target.
Ogni riga della tabella rappresenta un'istanza (detta anche data point o sample), che rappresenta le informazioni relative a un singolo individuo.
La tabella (training set) contiene una colonna target, il che significa che è etichettata.
L'obiettivo è addestrare il modello di ML su questo training set e, una volta addestrato, potrà prevedere per altre persone (nuove istanze) la presenza di diabete basandosi solo sulle feature.
Questo training set è un esempio di dataset biased poiché contiene esclusivamente informazioni su donne di almeno 21 anni. Pertanto, il modello potrebbe produrre previsioni meno accurate per uomini o per donne sotto i 21 anni, poiché non è stato addestrato su questi gruppi.
Durante la programmazione, le colonne delle caratteristiche sono solitamente assegnate a X
e le colonne target assegnate come y
.
E le caratteristiche delle nuove istanze sono assegnate come X_new
.
Grazie per i tuoi commenti!