このチャレンジでは、前回のチャレンジと同様に2次の多項式回帰モデルを構築します。ただし、今回はデータセットをトレーニングセットとテストセットに分割し、それぞれのセットに対してRMSEを計算する必要があります。これは、モデルが過学習または過少学習しているかどうかを判断するために必要です。
ここで、使用するべき `train_test_split()` 関数のリマインダーを示します。

また、RMSEを計算するために必要な `mean_squared_error()` 関数と `np.sqrt()` のリマインダーも示します：
```python
rmse = np.sqrt(mean_squared_error(y_true, y_predicted))
```

import unittest
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error


# Codefinity helper
def _dynamic_test(test_case, condition, success_msg, fail_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    # 1 — X only contains "age"
    def test_X_contains_age(self):
        import user_code

        try:
            X = user_code.X
            condition = list(X.columns) == ["age"]
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "X is correctly assigned from df[['age']].",
            "Expected X = df[['age']]."
        )

    # 2 — PolynomialFeatures applied
    def test_polynomial_features(self):
        import user_code

        try:
            n = user_code.n
            X = user_code.X
            expected = PolynomialFeatures(n).fit_transform(X)
            condition = np.allclose(user_code.X_tilde, expected)
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "PolynomialFeatures applied correctly to X.",
            "Expected X_tilde = PolynomialFeatures(n).fit_transform(X)."
        )

    # 3 — split correctness
    def test_split(self):
        import user_code

        try:
            total = len(user_code.X_tilde)
            condition = (
                len(user_code.X_tilde_train) + len(user_code.X_tilde_test) == total
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Dataset split correctly.",
            "Expected train_test_split(X_tilde, y, test_size=0.3, random_state=0)."
        )

    # 4 — model is fitted
    def test_model_fitted(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = isinstance(user_code.model, RegressionResultsWrapper)

        _dynamic_test(
            self,
            condition,
            "Model is fitted correctly using OLS.",
            "Expected model = sm.OLS(y_train, X_tilde_train).fit()."
        )

    # 5 — predictions for train and test exist & correct shape
    def test_predictions(self):
        import user_code

        try:
            cond1 = isinstance(user_code.y_train_pred, np.ndarray)
            cond2 = isinstance(user_code.y_test_pred, np.ndarray)
            cond3 = len(user_code.y_train_pred) == len(user_code.y_train)
            cond4 = len(user_code.y_test_pred) == len(user_code.y_test)

            condition = cond1 and cond2 and cond3 and cond4
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Predictions for train and test sets computed correctly.",
            "Expected model.predict(X_tilde_train/test)."
        )

    # 6 — RMSE computed manually with sqrt(MSE)
    def test_rmse_correct(self):
        import user_code

        try:
            train_expected = np.sqrt(
                mean_squared_error(user_code.y_train, user_code.y_train_pred)
            )
            test_expected = np.sqrt(
                mean_squared_error(user_code.y_test, user_code.y_test_pred)
            )

            condition = (
                np.isclose(train_expected, user_code.train_rmse)
                and np.isclose(test_expected, user_code.test_rmse)
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "RMSE is computed using sqrt(MSE).",
            "Expected RMSE = np.sqrt(mean_squared_error(...))."
        )

    # 7 — summary must be printed
    def test_summary_called(self):
        condition = False
        try:
            with open("user_code.py", "r") as f:
                contents = f.read().replace(" ", "")
            condition = "model.summary()" in contents
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "model.summary() is printed.",
            "Expected print(model.summary())."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

タスクを完了すると、テストRMSEがトレーニングRMSEよりも低くなっていることに気付くでしょう。通常、モデルは未知のデータに対してより良い結果を示すことはありません。ここでは、その差はごくわずかで偶然によるものです。データセットが比較的小さく、分割時にテストセットにやや予測しやすいデータポイントが割り当てられたためです。

線形回帰は予測分析において重要な概念です。データサイエンティスト、データアナリスト、統計学者によって広く利用されており、構築と解釈が容易でありながら、多くのタスクに十分な強力さを持っています。

最も単純な線形回帰モデルから始めましょう。線形回帰の基本的な考え方と、Pythonで予測を行う方法について学びます。

ほとんどの実世界の予測タスクは複数の特徴量を含みます。複数の特徴量を用いた線形回帰の扱い方を学びます。

直線は常にデータを適切に表現するとは限りません。より複雑な予測モデルの構築方法を学びましょう。これが多項式回帰の適用分野です。

多くの線形回帰モデルを構築できるようになった今、最適なモデルを選択する方法が必要です。これは指標を使用することで実現可能です。本セクションでは、最もよく使われる指標と、それらを使用する際に直面する可能性のある課題について説明します。

チャレンジ：多項式回帰を用いた価格予測

解答