Haaste: Hintojen Ennustaminen Polynomiregressiolla
Tässä haasteessa rakennat saman toisen asteen polynomiregression kuin edellisessä haasteessa. Sinun tulee kuitenkin jakaa aineisto opetus- ja testijoukkoon, jotta voit laskea RMSE-arvon molemmille joukoille. Tämä on tarpeen, jotta voidaan arvioida, ylikö tai aliko malli.
Tässä muistutuksena train_test_split()
-funktion käyttö.
Sekä muistutus mean_squared_error()
-funktiosta, jota tarvitaan RMSE:n laskemiseen:
rmse = mean_squared_error(y_true, y_predicted, squared=False)
Swipe to start coding
- Määritä DataFrame, jossa on vain yksi sarake
'age'
muuttujastadf
, muuttujaanX
. - Esikäsittele
X
käyttämälläPolynomialFeatures
-luokkaa. - Jaa aineisto sopivalla
sklearn
-funktiolla. - Rakenna ja kouluta malli harjoitusaineistolla.
- Ennusta sekä harjoitus- että testiaineiston kohdearvot.
- Laske RMSE molemmille aineistoille.
- Tulosta yhteenvetotaulukko.
Ratkaisu
Kun olet suorittanut tehtävän, huomaat, että testijoukon RMSE on jopa pienempi kuin opetusjoukon RMSE. Yleensä mallit eivät suoriudu paremmin näkemättömillä esimerkeillä. Tässä ero on kuitenkin hyvin pieni ja johtuu sattumasta. Aineistomme on melko pieni, ja jaossa testijoukkoon päätyi hieman helpompia (helpommin ennustettavia) havaintoja.
Kiitos palautteestasi!