Utmaning: Förutsäga Priser med Polynomregression
För denna utmaning ska du bygga samma polynomregression av grad 2 som i föregående utmaning. Du behöver dock dela upp datamängden i en träningsuppsättning och en testuppsättning för att beräkna RMSE för båda dessa uppsättningar. Detta krävs för att avgöra om modellen överanpassar eller underanpassar.
Här är en påminnelse om funktionen train_test_split()
som du kommer att använda.
Och även en påminnelse om funktionen mean_squared_error()
som behövs för att beräkna RMSE:
rmse = mean_squared_error(y_true, y_predicted, squared=False)
Swipe to start coding
- Tilldela DataFrame med en enda kolumn
'age'
fråndf
till variabelnX
. - Förbehandla
X
med hjälp av klassenPolynomialFeatures
. - Dela upp datasettet med lämplig funktion från
sklearn
. - Bygg och träna en modell på träningsuppsättningen.
- Förutsäg målvärden för både tränings- och testuppsättning.
- Beräkna RMSE för både tränings- och testuppsättning.
- Skriv ut sammanfattningstabellen.
Lösning
När du har slutfört uppgiften kommer du att märka att test-RMSE är ännu lägre än tränings-RMSE. Vanligtvis visar modeller inte bättre resultat på osedda instanser. Här är skillnaden mycket liten och beror på slumpen. Vår datamängd är relativt liten, och vid uppdelningen fick testuppsättningen något bättre (lättare att förutsäga) datapunkter.
Tack för dina kommentarer!