Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 評価指標 | 最適なモデルの選択
Pythonによる線形回帰

book評価指標

メニューを表示するにはスワイプしてください

モデルを構築する際には、データへの適合度を測定する指標が必要です。メトリックは、モデルの性能を数値で表す指標です。本章では、最も一般的なメトリックに注目します。

以下の記法を使用します。

すでに一つのメトリック、SSRSum of Squared Residuals、残差平方和)については、最適なパラメータを特定するために最小化したことがあります。 この記法を用いると、SSRの式は次のように表せます。

または同様に:

この指標は、モデルが同じ数のデータポイントを使用した場合にのみ機能。モデルの実際の性能を示さない。異なるサイズのデータセットで訓練された2つのモデルを想定。

最初のモデルは視覚的にはより良くフィットしているが、データポイントが多いためSSRが高くなる。平均残差が小さくても合計が増加する。二乗残差の平均を用いることでこの問題を解決—平均二乗誤差(MSE)

MSE

または同様に:

NumPy を使用した MSE の計算:

mse = np.mean((y_true - y_pred)**2)

または Scikit-learn:

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_true, y_pred)

MSE は二乗値であり、解釈が難しくなる。MSE が 49 dollars² の場合、誤差をドル単位で知りたい。平方根を取ることで 7 となり、これが Root Mean Squared Error (RMSE) である。

RMSE

RMSEの計算方法:

rmse = np.sqrt(np.mean((y_true - y_pred)**2))

またはScikit-learnを使用:

rmse = mean_squared_error(y_true, y_pred, squared=False)

MAE

残差を二乗する代わりに絶対値を取ることで、**平均絶対誤差(MAE)**が得られる。

または同様に

MAEはMSEと同様の動作をしますが、大きな誤差に対してより穏やかに扱います。絶対値を使用するため外れ値に対してよりロバストであり、極端な値がデータセットを歪める場合に有用です。

MAEの計算方法:

mae = np.mean(np.fabs(y_true - y_pred))

または:

from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_true, y_pred)

SSRは正規方程式の導出に役立ちましたが、モデルを比較する際にはどの指標も使用可能です。

Note
注意

SSR、MSE、RMSEは常に同じ順序でモデルを評価しますが、MAEは大きな誤差に対するペナルティが小さいため、異なるモデルを好む場合があります。事前に指標を選択し、それに最適化することが重要です。

これで、すべての指標が低いので2番目のモデルの方が優れていると判断できます。ただし、指標が低いからといって必ずしもモデルが優れているとは限りません。

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 4.  1

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 4.  1
some-alt