Summary  
This chapter covers how to compute and interpret the classification metrics accuracy, precision, and recall using values from a confusion matrix.

General domain of usage  
Email spam detection

分類モデルを評価するためには、**正解率（Accuracy）**、**適合率（Precision）**、**再現率（Recall）**の明確な定義が必要です。これらの指標は、**真陽性**（`TP`）、**真陰性**（`TN`）、**偽陽性**（`FP`）、**偽陰性**（`FN`）の件数をまとめた混同行列に基づいています。各指標の数式は以下の通りです。

- **正解率（Accuracy）**：全予測のうち正解した割合
  
$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

- **適合率（Precision）**（陽性適合率）：陽性と予測した中で実際に正解だった割合
  
$$
\text{Precision} = \frac{TP}{TP + FP}
$$

- **再現率（Recall）**（感度または真陽性率）：実際の陽性のうち正しく識別できた割合
  
$$
\text{Recall} = \frac{TP}{TP + FN}
$$

各指標はモデル性能の異なる側面を強調しており、どの指標を重視するかは目的や課題の文脈によって異なります。

実際には、クラスが均等で**偽陽性**と**偽陰性**のコストが同程度の場合、**正解率（Accuracy）**を重視します。例えば、すべてのカテゴリが同じ重要度を持つ画像分類では、正解率がモデル性能の簡潔な指標となります。

**適合率（Precision）**は、**偽陽性**のコストが高い場合に重要です。たとえば、メールのスパム判定では、正当なメールを誤ってスパムとする（偽陽性）ことを避けたいので、高い適合率が求められます。

**再現率（Recall）**は、陽性を見逃すコストが高い場合に重視されます。医療診断、特にがん検診などでは、できるだけ多くの実際の陽性を検出することが重要であり、多少の偽陽性があっても再現率を最大化することで見逃しを減らせます。

どの指標に注目すべきかを理解することで、モデル評価を現実の目的やリスクに合わせて調整できます。

# Manually compute accuracy, precision, and recall from confusion matrix values

# Example confusion matrix values
TP = 70  # True Positives
TN = 50  # True Negatives
FP = 10  # False Positives
FN = 20  # False Negatives

# Accuracy calculation
accuracy = (TP + TN) / (TP + TN + FP + FN)

# Precision calculation
precision = TP / (TP + FP) if (TP + FP) > 0 else 0

# Recall calculation
recall = TP / (TP + FN) if (TP + FN) > 0 else 0

print(f"Accuracy: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")


正当なメールをスパムと誤判定しないことが重要なメールスパムフィルターを構築する際、どの指標を優先すべきか？

Pythonを用いた適切なパフォーマンス指標による教師あり学習モデルの評価に焦点を当てています。回帰および分類の結果を評価する方法、モデルを客観的に比較する方法、指標値を解釈して情報に基づいたモデリングの意思決定を行う方法について説明します。


正解率、適合率、再現率