Sfida: Previsione dei Prezzi Utilizzando la Regressione Polinomiale
Per questa sfida, costruirai la stessa Regressione Polinomiale di grado 2 come nella sfida precedente. Tuttavia, dovrai suddividere il set in un set di addestramento e un set di test per calcolare l'RMSE per entrambi i set. Questo è necessario per valutare se il modello è soggetto a overfitting o underfitting.
Ecco un promemoria della funzione train_test_split()
che vorrai utilizzare.
E anche un promemoria della funzione mean_squared_error()
necessaria per calcolare l'RMSE:
rmse = mean_squared_error(y_true, y_predicted, squared=False)
Swipe to start coding
- Assegnare al variabile
'age'
il DataFrame con la singola colonnadf
diX
. - Pre-elaborare
X
utilizzando la classePolynomialFeatures
. - Suddividere il dataset utilizzando la funzione appropriata di
sklearn
. - Costruire e addestrare un modello sul set di addestramento.
- Predire i target sia del set di addestramento che di test.
- Calcolare l'RMSE sia per il set di addestramento che per quello di test.
- Stampare la tabella di riepilogo.
Soluzione
Quando completi il compito, noterai che l'RMSE del test è persino inferiore a quello dell'addestramento. Di solito, i modelli non mostrano risultati migliori su istanze non viste. Qui, la differenza è minima e dovuta al caso. Il nostro dataset è relativamente piccolo e, durante la suddivisione, il set di test ha ricevuto dati leggermente migliori (più facili da prevedere).
Grazie per i tuoi commenti!