Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Riepilogo della Modellazione | Modellazione
Quizzes & Challenges
Quizzes
Challenges
/
Introduzione al Machine Learning con Python

bookRiepilogo della Modellazione

Ora sai come costruire un modello, utilizzare le pipeline e ottimizzare gli iperparametri. Hai anche appreso due metodi di valutazione: suddivisione train-test e cross-validation. Il passo successivo è combinare valutazione e ottimizzazione utilizzando GridSearchCV o RandomizedSearchCV.

Note
Nota

Poiché il nostro dataset è molto piccolo, utilizzeremo GridSearchCV, ma tutto ciò che segue si applica anche a RandomizedSearchCV.

Poiché la cross-validation è più stabile rispetto a una singola suddivisione train-test, l'obiettivo è ottenere il punteggio di cross-validation più alto. GridSearchCV esplora gli iperparametri e trova quelli che massimizzano questo punteggio. Il punteggio migliore viene memorizzato in .best_score_.

Note
Nota

Gli iperparametri che funzionano meglio per un dataset potrebbero non generalizzarsi quando arrivano nuovi dati. Pertanto, .best_score_ potrebbe essere superiore alle prestazioni del modello su dati completamente mai visti.

Flusso di lavoro comune: suddividere in set di addestramento e di test; eseguire la validazione incrociata sul set di addestramento per ottimizzare il modello; quindi valutare il modello ottimizzato sul set di test per misurare le prestazioni nel mondo reale.

In sintesi:

  1. Pre-elaborare i dati;
  2. Suddividere in set di addestramento e di test;
  3. Utilizzare la validazione incrociata sul set di addestramento per trovare la configurazione migliore;
  4. Valutare sul set di test.
Note
Approfondisci

Il terzo passaggio solitamente prevede il test di più algoritmi e la regolazione dei relativi iperparametri per identificare l'opzione migliore. Per semplicità, in questo corso è stato utilizzato un solo algoritmo.

La cross-validazione non è sempre l'opzione migliore. Per dataset di grandi dimensioni, il calcolo dei punteggi CV diventa oneroso, mentre una suddivisione train-test risulta più stabile grazie all'ampio set di test.

I dataset di grandi dimensioni vengono spesso suddivisi in training, validation e test set. Gli iperparametri vengono scelti in base alle prestazioni sul validation set. Infine, il modello selezionato viene valutato sul test set per verificare quanto bene generalizza.

Il dataset dei pinguini è di piccole dimensioni, con solo 342 istanze. A causa di questa dimensione limitata, nel prossimo capitolo verrà utilizzato il punteggio di cross-validation per la valutazione.

question mark

Perché la cross-validation è particolarmente preziosa per l'ottimizzazione degli iperparametri nei dataset di piccole dimensioni, rispetto a quelli più grandi dove si potrebbero preferire le divisioni train-test?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 9

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

bookRiepilogo della Modellazione

Scorri per mostrare il menu

Ora sai come costruire un modello, utilizzare le pipeline e ottimizzare gli iperparametri. Hai anche appreso due metodi di valutazione: suddivisione train-test e cross-validation. Il passo successivo è combinare valutazione e ottimizzazione utilizzando GridSearchCV o RandomizedSearchCV.

Note
Nota

Poiché il nostro dataset è molto piccolo, utilizzeremo GridSearchCV, ma tutto ciò che segue si applica anche a RandomizedSearchCV.

Poiché la cross-validation è più stabile rispetto a una singola suddivisione train-test, l'obiettivo è ottenere il punteggio di cross-validation più alto. GridSearchCV esplora gli iperparametri e trova quelli che massimizzano questo punteggio. Il punteggio migliore viene memorizzato in .best_score_.

Note
Nota

Gli iperparametri che funzionano meglio per un dataset potrebbero non generalizzarsi quando arrivano nuovi dati. Pertanto, .best_score_ potrebbe essere superiore alle prestazioni del modello su dati completamente mai visti.

Flusso di lavoro comune: suddividere in set di addestramento e di test; eseguire la validazione incrociata sul set di addestramento per ottimizzare il modello; quindi valutare il modello ottimizzato sul set di test per misurare le prestazioni nel mondo reale.

In sintesi:

  1. Pre-elaborare i dati;
  2. Suddividere in set di addestramento e di test;
  3. Utilizzare la validazione incrociata sul set di addestramento per trovare la configurazione migliore;
  4. Valutare sul set di test.
Note
Approfondisci

Il terzo passaggio solitamente prevede il test di più algoritmi e la regolazione dei relativi iperparametri per identificare l'opzione migliore. Per semplicità, in questo corso è stato utilizzato un solo algoritmo.

La cross-validazione non è sempre l'opzione migliore. Per dataset di grandi dimensioni, il calcolo dei punteggi CV diventa oneroso, mentre una suddivisione train-test risulta più stabile grazie all'ampio set di test.

I dataset di grandi dimensioni vengono spesso suddivisi in training, validation e test set. Gli iperparametri vengono scelti in base alle prestazioni sul validation set. Infine, il modello selezionato viene valutato sul test set per verificare quanto bene generalizza.

Il dataset dei pinguini è di piccole dimensioni, con solo 342 istanze. A causa di questa dimensione limitata, nel prossimo capitolo verrà utilizzato il punteggio di cross-validation per la valutazione.

question mark

Perché la cross-validation è particolarmente preziosa per l'ottimizzazione degli iperparametri nei dataset di piccole dimensioni, rispetto a quelli più grandi dove si potrebbero preferire le divisioni train-test?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 9
some-alt