I denne utfordringen skal du bygge den samme polynomregresjonen av grad 2 som i forrige utfordring. Du må imidlertid dele datasettet i et treningssett og et testsett for å beregne RMSE for begge disse settene. Dette er nødvendig for å vurdere om modellen overtilpasser eller undertilpasser.  
Her er en påminnelse om funksjonen `train_test_split()` som du bør bruke.

Og også en påminnelse om funksjonen `mean_squared_error()` med `np.sqrt()` som trengs for å beregne RMSE:
```python
rmse = np.sqrt(mean_squared_error(y_true, y_predicted))
```

import unittest
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error


# Codefinity helper
def _dynamic_test(test_case, condition, success_msg, fail_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    # 1 — X only contains "age"
    def test_X_contains_age(self):
        import user_code

        try:
            X = user_code.X
            condition = list(X.columns) == ["age"]
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "X is correctly assigned from df[['age']].",
            "Expected X = df[['age']]."
        )

    # 2 — PolynomialFeatures applied
    def test_polynomial_features(self):
        import user_code

        try:
            n = user_code.n
            X = user_code.X
            expected = PolynomialFeatures(n).fit_transform(X)
            condition = np.allclose(user_code.X_tilde, expected)
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "PolynomialFeatures applied correctly to X.",
            "Expected X_tilde = PolynomialFeatures(n).fit_transform(X)."
        )

    # 3 — split correctness
    def test_split(self):
        import user_code

        try:
            total = len(user_code.X_tilde)
            condition = (
                len(user_code.X_tilde_train) + len(user_code.X_tilde_test) == total
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Dataset split correctly.",
            "Expected train_test_split(X_tilde, y, test_size=0.3, random_state=0)."
        )

    # 4 — model is fitted
    def test_model_fitted(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = isinstance(user_code.model, RegressionResultsWrapper)

        _dynamic_test(
            self,
            condition,
            "Model is fitted correctly using OLS.",
            "Expected model = sm.OLS(y_train, X_tilde_train).fit()."
        )

    # 5 — predictions for train and test exist & correct shape
    def test_predictions(self):
        import user_code

        try:
            cond1 = isinstance(user_code.y_train_pred, np.ndarray)
            cond2 = isinstance(user_code.y_test_pred, np.ndarray)
            cond3 = len(user_code.y_train_pred) == len(user_code.y_train)
            cond4 = len(user_code.y_test_pred) == len(user_code.y_test)

            condition = cond1 and cond2 and cond3 and cond4
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Predictions for train and test sets computed correctly.",
            "Expected model.predict(X_tilde_train/test)."
        )

    # 6 — RMSE computed manually with sqrt(MSE)
    def test_rmse_correct(self):
        import user_code

        try:
            train_expected = np.sqrt(
                mean_squared_error(user_code.y_train, user_code.y_train_pred)
            )
            test_expected = np.sqrt(
                mean_squared_error(user_code.y_test, user_code.y_test_pred)
            )

            condition = (
                np.isclose(train_expected, user_code.train_rmse)
                and np.isclose(test_expected, user_code.test_rmse)
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "RMSE is computed using sqrt(MSE).",
            "Expected RMSE = np.sqrt(mean_squared_error(...))."
        )

    # 7 — summary must be printed
    def test_summary_called(self):
        condition = False
        try:
            with open("user_code.py", "r") as f:
                contents = f.read().replace(" ", "")
            condition = "model.summary()" in contents
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "model.summary() is printed.",
            "Expected print(model.summary())."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Når du har fullført oppgaven, vil du legge merke til at test-RMSE faktisk er lavere enn trenings-RMSE. Vanligvis gir ikke modeller bedre resultater på ukjente eksempler. Her er forskjellen svært liten og skyldes tilfeldigheter. Datasettet vårt er relativt lite, og under delingen fikk testsettet litt bedre (enklere å forutsi) datapunkter.

Lineær regresjon er et sentralt konsept innen prediktiv analyse. Det brukes mye av dataforskere, dataanalytikere og statistikere fordi det er enkelt å bygge og tolke, men samtidig kraftig nok for mange oppgaver.

La oss begynne med den enkleste lineære regresjonsmodellen! Du vil lære om konseptet bak lineær regresjon og hvordan lage prediksjoner i Python.

De fleste prediksjonsoppgaver i virkeligheten involverer mer enn én variabel. Du vil lære hvordan man håndterer lineær regresjon med flere variabler.

En rett linje beskriver ikke alltid dataene godt. La oss lære hvordan vi kan bygge en mer kompleks modell for prediksjon. Det er dette polynomisk regresjon er egnet for.

Nå som du vet hvordan du bygger flere lineære regresjonsmodeller, trenger du en metode for å velge den beste. Dette kan oppnås ved hjelp av målemetoder. Denne delen forklarer de mest brukte metodene og utfordringene du kan møte ved bruk av dem.

Utfordring: Predikere Priser ved Bruk av Polynomisk Regresjon

Løsning