Utfordring: Predikere Priser ved Bruk av Polynomregresjon
I denne utfordringen skal du bygge den samme polynomregresjonen av grad 2 som i forrige utfordring. Du må imidlertid dele datasettet inn i et treningssett og et testsett for å beregne RMSE for begge disse settene. Dette er nødvendig for å vurdere om modellen overtilpasser eller undertilpasser.
Her er en påminnelse om funksjonen train_test_split()
som du bør bruke.
Og også en påminnelse om funksjonen mean_squared_error()
som trengs for å beregne RMSE:
rmse = mean_squared_error(y_true, y_predicted, squared=False)
Swipe to start coding
- Tildel DataFrame med én kolonne
'age'
fradf
til variabelenX
. - Forhåndsprosesser
X
ved å bruke klassenPolynomialFeatures
. - Del datasettet ved hjelp av riktig funksjon fra
sklearn
. - Bygg og tren en modell på treningssettet.
- Prediker målene for både trenings- og testsettet.
- Beregn RMSE for både trenings- og testsettet.
- Skriv ut oppsummeringstabellen.
Løsning
Når du har fullført oppgaven, vil du legge merke til at test-RMSE faktisk er lavere enn trenings-RMSE. Vanligvis gir ikke modeller bedre resultater på ukjente data. Her er forskjellen svært liten og skyldes tilfeldigheter. Datasettet vårt er relativt lite, og ved splitting fikk testsettet litt bedre (lettere å forutsi) datapunkter.
Takk for tilbakemeldingene dine!