Summary  
This chapter covers detecting and addressing overfitting and underfitting in predictive models by using a train–test split and comparing performance metrics on each subset.  

General domain of usage  
Machine learning model evaluation

## 過学習
以下の2つの回帰直線を考察。どちらが優れているか？

指標によれば2番目のモデルが優れているため、`X_new = [0.2, 0.5, 2.7]` の予測に使用。しかし、予測値と実際の値を比較すると、1番目のモデルの方が良い結果となる。

これは、2番目のモデルが**過学習**しているために発生します。モデルが複雑すぎて訓練データに過度に適合し、新しいデータに対して一般化できなくなっています。

## アンダーフィッティング

**アンダーフィッティング**は、モデルが単純すぎて訓練データさえ適合できず、未知のデータに対しても予測精度が低下する現象です。

モデルがアンダーフィットしているかオーバーフィットしているかを視覚的に判断することが可能。

高次元モデルは可視化できないため、過学習や未学習を検出する別の方法が必要です。


## 訓練データとテストデータの分割

未知のデータに対する性能を推定するため、データセットを既知のターゲットを持つ訓練セットとテストセットに分割します。


トレーニングセットで学習を行い、トレーニングセットとテストセットの両方で指標を計算してパフォーマンスを比較。



分割はランダムである必要があります。一般的に、20〜30%がテストセットに割り当てられ、70〜80%がトレーニングに使用されます。Scikit-learnはこれを簡単に行う方法を提供しています。


例えば、トレーニングセットを70%トレーニング／30%テストに分割するには、次のコードを使用します：
```python
from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
```

線形回帰は予測分析において重要な概念です。データサイエンティスト、データアナリスト、統計学者によって広く利用されており、構築と解釈が容易でありながら、多くのタスクに十分な強力さを持っています。

最も単純な線形回帰モデルから始めましょう。線形回帰の基本的な考え方と、Pythonで予測を行う方法について学びます。

ほとんどの実世界の予測タスクは複数の特徴量を含みます。複数の特徴量を用いた線形回帰の扱い方を学びます。

直線は常にデータを適切に表現するとは限りません。より複雑な予測モデルの構築方法を学びましょう。これが多項式回帰の適用分野です。

多くの線形回帰モデルを構築できるようになった今、最適なモデルを選択する方法が必要です。これは指標を使用することで実現可能です。本セクションでは、最もよく使われる指標と、それらを使用する際に直面する可能性のある課題について説明します。