Summary  
This chapter explains how to split decision tree nodes by evaluating potential feature thresholds using impurity measures (Gini impurity and entropy) and selecting the split that minimizes the weighted impurity.  

General domain of usage  
Machine learning classification

トレーニング中は、**各決定ノードで最適な分割**を見つける必要があります。データを2つのノードに分割する際、異なるクラスが別々のノードに分かれることを目指します。

- **最良の場合:** ノード内のすべてのデータポイントが同じクラスに属する場合
- **最悪の場合:** 各クラスのデータポイント数が等しい場合

## ジニ不純度

分割の良さを測るために、**ジニ不純度**を計算します。これは、ノードから**ランダムに**2点（復元抽出）を選んだとき、それらが**異なるクラス**である確率です。この確率（不純度）が低いほど、分割は良いとされます。

**二値分類**のジニ不純度は、次の式で計算可能：
$$
\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2
$$

ここで
- $$m_i$$ - ノード内のクラス$$i$$のインスタンス数；
- $$m$$ - ノード内のインスタンス数；
- $$p_i = \frac{m_i}{m}$$ - クラス$$i$$を選択する確率。

**多クラス分類**の場合、式は次の通り：
$$
\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2
$$

ここで
- $$C$$ - クラス数。

分割の良さは、分割によって得られる両ノードの**ジニスコアの加重平均**で評価可能。この値を**最小化**することが目標。

決定ノードを分割するには、分割する特徴量としきい値を見つける必要がある。

決定ノードでは、アルゴリズムは各特徴量に対して**貪欲に**最適な閾値を見つけます。そして、すべての特徴量の中から**最もジニ不純度が低い**分割を選択します（同点の場合はランダムに選択）。

## エントロピー

**エントロピー**は不純度の別の指標です。2値分類問題の場合、ノードのエントロピー $$H$$ は次の式で計算されます：

$$
H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)
$$

ここで：

- $$p$$ は正例（クラス1）の割合；
- $$1 - p$$ は負例（クラス0）の割合。

**多クラス分類問題**の場合、ノードのエントロピー $$H$$ は次の式で計算されます：

$$
H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)
$$

ここで：

- $$k$$ はクラス数；
- $$p_i$$ はノード内でクラス $$i$$ に属するサンプルの割合。

ジニ不純度と同様に、分割によって得られる子ノードの**エントロピー値の加重和**を計算することで、分割の良さを評価できます。この値を**最小化**することで、**情報利得を最大化**することができます。

エントロピーは、すべてのクラスが均等に分布している場合に**最大**となります。すべてのサンプルが**1つのクラス**（純粋ノード）に属している場合、エントロピーは**最小**（0）となります。

注記

より良い分割を選択してください。

Pythonを使用したカテゴリカルな結果を予測するための分類手法を紹介します。分類モデルの構築、トレーニング、評価、決定境界の解釈、一般的なアルゴリズムの実世界データセットへの適用に焦点を当てます。


ノードの分割

ジニ不純度

エントロピー