Tässä haasteessa rakennetaan sama toisen asteen polynomiregressiomalli kuin edellisessä haasteessa. Tällä kertaa tietoaineisto tulee kuitenkin jakaa opetus- ja testijoukkoon, jotta RMSE voidaan laskea molemmille joukoille. Tämä on tarpeen mallin yli- tai alisovittamisen arvioimiseksi.  
Alla muistutus `train_test_split()`-funktion käytöstä.

Lisäksi muistutus `mean_squared_error()`-funktion ja `np.sqrt()`-funktion käytöstä RMSE:n laskemiseen:
```python
rmse = np.sqrt(mean_squared_error(y_true, y_predicted))
```

import unittest
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error


# Codefinity helper
def _dynamic_test(test_case, condition, success_msg, fail_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    # 1 — X only contains "age"
    def test_X_contains_age(self):
        import user_code

        try:
            X = user_code.X
            condition = list(X.columns) == ["age"]
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "X is correctly assigned from df[['age']].",
            "Expected X = df[['age']]."
        )

    # 2 — PolynomialFeatures applied
    def test_polynomial_features(self):
        import user_code

        try:
            n = user_code.n
            X = user_code.X
            expected = PolynomialFeatures(n).fit_transform(X)
            condition = np.allclose(user_code.X_tilde, expected)
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "PolynomialFeatures applied correctly to X.",
            "Expected X_tilde = PolynomialFeatures(n).fit_transform(X)."
        )

    # 3 — split correctness
    def test_split(self):
        import user_code

        try:
            total = len(user_code.X_tilde)
            condition = (
                len(user_code.X_tilde_train) + len(user_code.X_tilde_test) == total
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Dataset split correctly.",
            "Expected train_test_split(X_tilde, y, test_size=0.3, random_state=0)."
        )

    # 4 — model is fitted
    def test_model_fitted(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = isinstance(user_code.model, RegressionResultsWrapper)

        _dynamic_test(
            self,
            condition,
            "Model is fitted correctly using OLS.",
            "Expected model = sm.OLS(y_train, X_tilde_train).fit()."
        )

    # 5 — predictions for train and test exist & correct shape
    def test_predictions(self):
        import user_code

        try:
            cond1 = isinstance(user_code.y_train_pred, np.ndarray)
            cond2 = isinstance(user_code.y_test_pred, np.ndarray)
            cond3 = len(user_code.y_train_pred) == len(user_code.y_train)
            cond4 = len(user_code.y_test_pred) == len(user_code.y_test)

            condition = cond1 and cond2 and cond3 and cond4
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Predictions for train and test sets computed correctly.",
            "Expected model.predict(X_tilde_train/test)."
        )

    # 6 — RMSE computed manually with sqrt(MSE)
    def test_rmse_correct(self):
        import user_code

        try:
            train_expected = np.sqrt(
                mean_squared_error(user_code.y_train, user_code.y_train_pred)
            )
            test_expected = np.sqrt(
                mean_squared_error(user_code.y_test, user_code.y_test_pred)
            )

            condition = (
                np.isclose(train_expected, user_code.train_rmse)
                and np.isclose(test_expected, user_code.test_rmse)
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "RMSE is computed using sqrt(MSE).",
            "Expected RMSE = np.sqrt(mean_squared_error(...))."
        )

    # 7 — summary must be printed
    def test_summary_called(self):
        condition = False
        try:
            with open("user_code.py", "r") as f:
                contents = f.read().replace(" ", "")
            condition = "model.summary()" in contents
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "model.summary() is printed.",
            "Expected print(model.summary())."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Kun suoritat tehtävän, huomaat, että testin RMSE on jopa pienempi kuin koulutusdatan RMSE. Yleensä mallit eivät anna parempia tuloksia näkemättömillä esimerkeillä. Tässä ero on hyvin pieni ja johtuu sattumasta. Aineistomme on melko pieni, ja jakaessa testijoukkoon päätyi hieman helpommin ennustettavia havaintoja.

Lineaarinen regressio on keskeinen käsite ennakoivassa analytiikassa. Sitä käyttävät laajasti data-analyytikot, data scientistit ja tilastotieteilijät, sillä se on helppo rakentaa ja tulkita, mutta riittävän tehokas moniin tehtäviin.

Aloitetaan yksinkertaisimmalla lineaarisen regression mallilla. Opit lineaarisen regression perusidean ja ennusteiden tekemisen Pythonilla.

Useimmat todellisen maailman ennustustehtävät sisältävät useamman kuin yhden muuttujan. Opit käsittelemään lineaarista regressiota useilla muuttujilla.

Suora viiva ei aina kuvaa dataa tarkasti. Opitaan rakentamaan monimutkaisempi malli ennustamista varten. Tätä varten polynominen regressio soveltuu hyvin.

Nyt kun osaat rakentaa useita lineaarisen regressiomalleja, tarvitset tavan valita paras niistä. Tämä on mahdollista mittareiden avulla. Tässä osiossa käsitellään yleisimmin käytettyjä mittareita sekä niihin liittyviä haasteita.

Haaste: Hintojen Ennustaminen Polynomiregression Avulla

Ratkaisu