Impara Riepilogo della Modellazione

Ora sai come costruire un modello, utilizzare le pipeline e ottimizzare gli iperparametri. Hai anche appreso due metodi di valutazione: suddivisione train-test e cross-validation. Il passo successivo è combinare valutazione e ottimizzazione utilizzando GridSearchCV o RandomizedSearchCV.

Nota

Poiché il nostro dataset è molto piccolo, utilizzeremo GridSearchCV, ma tutto ciò che segue si applica anche a RandomizedSearchCV.

Poiché la cross-validation è più stabile rispetto a una singola suddivisione train-test, l'obiettivo è ottenere il punteggio di cross-validation più alto. GridSearchCV esplora gli iperparametri e trova quelli che massimizzano questo punteggio. Il punteggio migliore viene memorizzato in .best_score_.

Nota

Gli iperparametri che funzionano meglio per un dataset potrebbero non generalizzarsi quando arrivano nuovi dati. Pertanto, .best_score_ potrebbe essere superiore alle prestazioni del modello su dati completamente mai visti.

Flusso di lavoro comune: suddividere in set di addestramento e di test; eseguire la validazione incrociata sul set di addestramento per ottimizzare il modello; quindi valutare il modello ottimizzato sul set di test per misurare le prestazioni nel mondo reale.

In sintesi:

Pre-elaborare i dati;
Suddividere in set di addestramento e di test;
Utilizzare la validazione incrociata sul set di addestramento per trovare la configurazione migliore;
Valutare sul set di test.

Approfondisci

Il terzo passaggio solitamente prevede il test di più algoritmi e la regolazione dei relativi iperparametri per identificare l'opzione migliore. Per semplicità, in questo corso è stato utilizzato un solo algoritmo.

La cross-validazione non è sempre l'opzione migliore. Per dataset di grandi dimensioni, il calcolo dei punteggi CV diventa oneroso, mentre una suddivisione train-test risulta più stabile grazie all'ampio set di test.

I dataset di grandi dimensioni vengono spesso suddivisi in training, validation e test set. Gli iperparametri vengono scelti in base alle prestazioni sul validation set. Infine, il modello selezionato viene valutato sul test set per verificare quanto bene generalizza.

Il dataset dei pinguini è di piccole dimensioni, con solo 342 istanze. A causa di questa dimensione limitata, nel prossimo capitolo verrà utilizzato il punteggio di cross-validation per la valutazione.

Perché la cross-validation è particolarmente preziosa per l'ottimizzazione degli iperparametri nei dataset di piccole dimensioni, rispetto a quelli più grandi dove si potrebbero preferire le divisioni train-test?

Select the correct answer

La cross-validation richiede meno risorse computazionali, rendendola ideale per i dataset di piccole dimensioni.

I dataset più grandi forniscono risultati intrinsecamente più accurati, quindi la cross-validation non è necessaria.

La cross-validation garantisce che ogni punto dati venga utilizzato sia per l'addestramento che per la validazione, aspetto cruciale nei dataset di piccole dimensioni dove i dati sono limitati.

I punteggi di cross-validation sono meno affidabili rispetto a quelli del validation set, che vengono utilizzati solo nei dataset più grandi.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 9

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Scorri per mostrare il menu

Nota

Poiché il nostro dataset è molto piccolo, utilizzeremo GridSearchCV, ma tutto ciò che segue si applica anche a RandomizedSearchCV.

Nota

In sintesi:

Pre-elaborare i dati;
Suddividere in set di addestramento e di test;
Utilizzare la validazione incrociata sul set di addestramento per trovare la configurazione migliore;
Valutare sul set di test.

Approfondisci

Select the correct answer

La cross-validation richiede meno risorse computazionali, rendendola ideale per i dataset di piccole dimensioni.

I dataset più grandi forniscono risultati intrinsecamente più accurati, quindi la cross-validation non è necessaria.

La cross-validation garantisce che ogni punto dati venga utilizzato sia per l'addestramento che per la validazione, aspetto cruciale nei dataset di piccole dimensioni dove i dati sono limitati.

I punteggi di cross-validation sono meno affidabili rispetto a quelli del validation set, che vengono utilizzati solo nei dataset più grandi.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 9