Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Riepilogo della Modellazione | Modellazione
Introduzione al ML con Scikit-Learn

bookRiepilogo della Modellazione

Congratulazioni per essere arrivato fin qui! Ora sai già come costruire un modello, utilizzarlo in una pipeline e ottimizzare gli iperparametri! Hai anche imparato due modi per valutare il modello: la suddivisione train-test e il punteggio di cross-validation.

Parliamo ora della combinazione tra valutazione del modello e ottimizzazione degli iperparametri eseguita da GridSearchCV (o RandomizedSearchCV).

In generale, l'obiettivo è ottenere il miglior punteggio di cross-validation sul nostro dataset, poiché la cross-validation è più stabile e meno sensibile al modo in cui i dati vengono suddivisi rispetto alla suddivisione train-test.

Il nostro scopo è identificare gli iperparametri che producono il miglior punteggio di cross-validation, ed è proprio ciò per cui è progettato GridSearchCV. Questo processo porta a un modello ottimizzato che offre prestazioni ottimali sul dataset di addestramento. GridSearchCV fornisce anche l'attributo .best_score_, che riflette il punteggio di cross-validation più alto raggiunto durante il processo di ottimizzazione degli iperparametri.

Tipicamente, il dataset viene prima suddiviso in set di addestramento e di test. Successivamente, si ottimizza il modello sull'intero set di addestramento utilizzando la cross-validation per identificare il modello migliore. Infine, si valuta la performance del modello sul set di test, costituito da dati completamente mai visti, per stimare la sua applicabilità nel mondo reale.

Ricapitoliamo tutto. Sono necessari:

  1. Pre-elaborazione dei dati;
  2. Suddivisione in train-test;
  3. Individuazione del modello con il miglior punteggio di cross-validation sul set di addestramento;
  4. Valutazione del modello migliore sul set di test.

Prima di passare alla sfida finale, è importante notare che la cross-validation non è l'unico metodo per ottimizzare i modelli. Con l'aumentare delle dimensioni dei dataset, il calcolo dei punteggi di cross-validation diventa più dispendioso in termini di tempo, e la classica suddivisione train-test offre maggiore stabilità grazie all'aumento della dimensione del set di test.

Di conseguenza, i dataset di grandi dimensioni vengono spesso suddivisi in tre insiemi: un set di addestramento, un set di validazione e un set di test. Il modello viene addestrato sul set di addestramento e valutato sul set di validazione per selezionare il modello o gli iperparametri con le migliori prestazioni.

Questa selezione utilizza i punteggi del set di validazione invece dei punteggi di cross-validation. Infine, il modello scelto viene valutato sul set di test, costituito da dati completamente nuovi, per verificarne le prestazioni.

Il nostro penguins dataset non è grande. In realtà è molto piccolo (342 istanze), quindi utilizzeremo l'approccio del punteggio di cross-validation nel prossimo capitolo.

question mark

Perché la cross-validation è particolarmente preziosa per l'ottimizzazione degli iperparametri nei dataset più piccoli, rispetto a quelli più grandi dove si potrebbero preferire le divisioni train-test?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 9

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 3.13

bookRiepilogo della Modellazione

Scorri per mostrare il menu

Congratulazioni per essere arrivato fin qui! Ora sai già come costruire un modello, utilizzarlo in una pipeline e ottimizzare gli iperparametri! Hai anche imparato due modi per valutare il modello: la suddivisione train-test e il punteggio di cross-validation.

Parliamo ora della combinazione tra valutazione del modello e ottimizzazione degli iperparametri eseguita da GridSearchCV (o RandomizedSearchCV).

In generale, l'obiettivo è ottenere il miglior punteggio di cross-validation sul nostro dataset, poiché la cross-validation è più stabile e meno sensibile al modo in cui i dati vengono suddivisi rispetto alla suddivisione train-test.

Il nostro scopo è identificare gli iperparametri che producono il miglior punteggio di cross-validation, ed è proprio ciò per cui è progettato GridSearchCV. Questo processo porta a un modello ottimizzato che offre prestazioni ottimali sul dataset di addestramento. GridSearchCV fornisce anche l'attributo .best_score_, che riflette il punteggio di cross-validation più alto raggiunto durante il processo di ottimizzazione degli iperparametri.

Tipicamente, il dataset viene prima suddiviso in set di addestramento e di test. Successivamente, si ottimizza il modello sull'intero set di addestramento utilizzando la cross-validation per identificare il modello migliore. Infine, si valuta la performance del modello sul set di test, costituito da dati completamente mai visti, per stimare la sua applicabilità nel mondo reale.

Ricapitoliamo tutto. Sono necessari:

  1. Pre-elaborazione dei dati;
  2. Suddivisione in train-test;
  3. Individuazione del modello con il miglior punteggio di cross-validation sul set di addestramento;
  4. Valutazione del modello migliore sul set di test.

Prima di passare alla sfida finale, è importante notare che la cross-validation non è l'unico metodo per ottimizzare i modelli. Con l'aumentare delle dimensioni dei dataset, il calcolo dei punteggi di cross-validation diventa più dispendioso in termini di tempo, e la classica suddivisione train-test offre maggiore stabilità grazie all'aumento della dimensione del set di test.

Di conseguenza, i dataset di grandi dimensioni vengono spesso suddivisi in tre insiemi: un set di addestramento, un set di validazione e un set di test. Il modello viene addestrato sul set di addestramento e valutato sul set di validazione per selezionare il modello o gli iperparametri con le migliori prestazioni.

Questa selezione utilizza i punteggi del set di validazione invece dei punteggi di cross-validation. Infine, il modello scelto viene valutato sul set di test, costituito da dati completamente nuovi, per verificarne le prestazioni.

Il nostro penguins dataset non è grande. In realtà è molto piccolo (342 istanze), quindi utilizzeremo l'approccio del punteggio di cross-validation nel prossimo capitolo.

question mark

Perché la cross-validation è particolarmente preziosa per l'ottimizzazione degli iperparametri nei dataset più piccoli, rispetto a quelli più grandi dove si potrebbero preferire le divisioni train-test?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 9
some-alt