Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Riepilogo della Modellazione | Modellazione
Introduzione al Machine Learning con Python

Riepilogo della Modellazione

Scorri per mostrare il menu

Ora sai come costruire un modello, utilizzare le pipeline e ottimizzare gli iperparametri. Hai anche appreso due metodi di valutazione: suddivisione train-test e cross-validation. Il passo successivo è combinare valutazione e ottimizzazione utilizzando GridSearchCV o RandomizedSearchCV.

Note
Nota

Poiché il nostro dataset è molto piccolo, utilizzeremo il GridSearchCV, ma tutto ciò che segue si applica anche a un RandomizedSearchCV.

Poiché la cross-validation è più stabile rispetto a una singola suddivisione train-test, l'obiettivo è ottenere il punteggio di cross-validation più alto. GridSearchCV esplora gli iperparametri e trova quelli che massimizzano questo punteggio. Il punteggio migliore viene memorizzato in .best_score_.

Note
Nota

Gli iperparametri che funzionano meglio per un dataset potrebbero non generalizzare quando arrivano nuovi dati. Pertanto, .best_score_ può essere superiore rispetto alle prestazioni del modello su dati completamente nuovi.

Flusso di lavoro comune: suddivisione in set di addestramento e di test; esecuzione della cross-validation sul set di addestramento per ottimizzare il modello; successiva valutazione del modello ottimizzato sul set di test per misurare le prestazioni nel mondo reale.

Suddivisione train-test

Per riassumere:

  1. Pre-elaborazione dei dati;
  2. Suddivisione in set di addestramento e di test;
  3. Utilizzo della cross-validazione sul set di addestramento per trovare la configurazione migliore;
  4. Valutazione sul set di test.
Note
Approfondimento

Il terzo passaggio di solito prevede il test di molteplici algoritmi e la regolazione dei loro iperparametri per identificare l'opzione migliore. Per semplicità, in questo corso è stato utilizzato un solo algoritmo.

La cross-validazione non è sempre l'opzione migliore. Per dataset di grandi dimensioni, il calcolo dei punteggi CV diventa oneroso, mentre una suddivisione train-test risulta più stabile grazie all'ampio set di test.

I grandi dataset vengono spesso suddivisi in training, validation e test set. Gli iperparametri vengono scelti in base alle prestazioni sul validation set. Infine, il modello selezionato viene valutato sul test set per verificare quanto bene generalizza.

Suddivisione train-test-validation

Il penguins dataset è di piccole dimensioni, con solo 342 istanze. A causa di questa dimensione limitata, nel prossimo capitolo verrà utilizzato il punteggio di cross-validation per la valutazione.

question mark

Perché la cross-validation è particolarmente preziosa per l'ottimizzazione degli iperparametri in set di dati di piccole dimensioni, mentre nei set di dati più grandi si preferisce spesso la suddivisione train-test?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 9

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 4. Capitolo 9
some-alt