Udfordring: Forudsigelse af Priser ved Hjælp af Polynomiel Regression
I denne udfordring skal du opbygge den samme polynomielle regression af grad 2 som i den forrige udfordring. Du skal dog opdele datasættet i et træningssæt og et testsæt for at beregne RMSE for begge sæt. Dette er nødvendigt for at vurdere, om modellen overtilpasser eller undertilpasser.
Her er en påmindelse om funktionen train_test_split()
, som du skal bruge.
Og her er også en påmindelse om funktionen mean_squared_error()
, som er nødvendig for at beregne RMSE:
rmse = mean_squared_error(y_true, y_predicted, squared=False)
Swipe to start coding
- Tildel DataFrame med en enkelt kolonne
'age'
fradf
til variablenX
. - Forbehandl
X
ved hjælp af klassenPolynomialFeatures
. - Opdel datasættet ved hjælp af den relevante funktion fra
sklearn
. - Byg og træn en model på træningssættet.
- Forudsig målværdierne for både trænings- og testsættet.
- Beregn RMSE for både trænings- og testsættet.
- Udskriv oversigtstabellen.
Løsning
Når du har gennemført opgaven, vil du bemærke, at test-RMSE faktisk er lavere end trænings-RMSE. Normalt viser modeller ikke bedre resultater på ukendte data. Her er forskellen dog meget lille og skyldes tilfældigheder. Vores datasæt er relativt lille, og under opdelingen har testsættet fået lidt bedre (nemmere at forudsige) datapunkter.
Tak for dine kommentarer!