Summary  
This chapter explains how to quantify prediction errors using metrics like Sum of Squared Residuals (SSR), Mean Squared Error (MSE), Root Mean Squared Error (RMSE), and Mean Absolute Error (MAE), and shows how to compute each with code.  

General domain of usage  
Evaluating regression models in supervised machine learning.

モデルを構築する際には、データへの適合度を測定する指標が必要です。**メトリック**は、モデルの性能を数値で表す指標です。本章では、最も一般的なメトリックに注目します。

すでに一つのメトリック、**SSR**（**Sum of Squared Residuals**、残差平方和）については、最適なパラメータを特定するために最小化したことがあります。
この記法を用いると、SSRの式は次のように表せます。

この指標は、モデルが同じ数のデータポイントを使用した場合にのみ機能。モデルの実際の性能を示さない。異なるサイズのデータセットで訓練された2つのモデルを想定。

最初のモデルは視覚的にはより良くフィットしているが、データポイントが多いためSSRが高くなる。平均残差が小さくても合計が増加する。二乗残差の**平均**を用いることでこの問題を解決—**平均二乗誤差（MSE）**。

## MSE

NumPy を使用した MSE の計算:

```python
mse = np.mean((y_true - y_pred)**2)
```

または Scikit-learn:

```python
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_true, y_pred)
```

MSE は二乗値であり、解釈が難しくなる。MSE が 49 dollars² の場合、誤差をドル単位で知りたい。平方根を取ることで 7 となり、これが **Root Mean Squared Error (RMSE)** である。

RMSEの計算方法：

```python
rmse = np.sqrt(np.mean((y_true - y_pred)**2))
```

またはScikit-learnを使用：

```python
rmse = mean_squared_error(y_true, y_pred, squared=False)
```

## MAE

残差を二乗する代わりに絶対値を取ることで、**平均絶対誤差（MAE）**が得られる。

MAEはMSEと同様の動作をしますが、大きな誤差に対してより穏やかに扱います。絶対値を使用するため外れ値に対してよりロバストであり、極端な値がデータセットを歪める場合に有用です。

MAEの計算方法：

```python
mae = np.mean(np.fabs(y_true - y_pred))
```

または：

```python
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_true, y_pred)
```

SSRは正規方程式の導出に役立ちましたが、モデルを比較する際にはどの指標も使用可能です。

SSR、MSE、RMSEは常に同じ順序でモデルを評価しますが、MAEは大きな誤差に対するペナルティが小さいため、異なるモデルを好む場合があります。事前に指標を選択し、それに最適化することが重要です。

注意

これで、すべての指標が低いので2番目のモデルの方が優れていると判断できます。ただし、指標が低いからといって必ずしもモデルが優れているとは限りません。

線形回帰は予測分析において重要な概念です。データサイエンティスト、データアナリスト、統計学者によって広く利用されており、構築と解釈が容易でありながら、多くのタスクに十分な強力さを持っています。

最も単純な線形回帰モデルから始めましょう。線形回帰の基本的な考え方と、Pythonで予測を行う方法について学びます。

ほとんどの実世界の予測タスクは複数の特徴量を含みます。複数の特徴量を用いた線形回帰の扱い方を学びます。

直線は常にデータを適切に表現するとは限りません。より複雑な予測モデルの構築方法を学びましょう。これが多項式回帰の適用分野です。

多くの線形回帰モデルを構築できるようになった今、最適なモデルを選択する方法が必要です。これは指標を使用することで実現可能です。本セクションでは、最もよく使われる指標と、それらを使用する際に直面する可能性のある課題について説明します。

評価指標

MSE

RMSE

MAE