Summary  
The chapter explains how to prevent overfitting in decision trees by configuring hyperparameters—specifically limiting maximum tree depth and setting a minimum number of samples per leaf—to simplify the model.  

General domain of usage  
Machine learning

Pythonを使用して決定木を実装する前に、重要なトピックについて説明します。それは**過学習**です。これは決定木に関連する主な課題です。

以下は、決定木がデータセットにどのように適合するかの例です。モデルが**訓練データに適応し**、そのパターンや複雑さを捉えていることに注目してください。

モデルが**訓練セットに完全に適合し**、いかなるインスタンスも誤分類しない場合でも、問題は決定境界が**複雑すぎる**ことです。その結果、テスト（または交差検証）精度は訓練セットの精度よりも大幅に低くなり、モデルが**過学習**していることを示します。

この理由は、モデルが訓練データに完全に適合するために**必要なだけ多くの分割**を行うためです。

幸いなことに、決定木は高度に設定可能であり、ハイパーパラメータを調整することで**過学習を最小限に抑える**ことができます。

## 最大木深さ

ノードの**深さ**は、そのノードからルートノードまでの（垂直方向の）距離。

決定木の**最大深さ**を制限することで、木を小さくし、過学習の可能性を低減。これを行うには、最大深さに達した決定ノードを**リーフノード**に変換。

異なる最大深さの値によって決定境界がどのように変化するかを示すGIFも参照。

## サンプルの最小数

ツリーを制約するもう一つの方法は、リーフノードにおける**サンプルの最小数**を設定することです。これにより、モデルがより単純になり、外れ値に対して頑健になります。

このハイパーパラメータが**決定境界**にどのように影響するかを確認できます。

これら両方のハイパーパラメータは、**scikit-learnのDecision Tree**実装で利用可能です。  
デフォルトではツリーに制約はありません：`max_depth`は`None`に設定されており、深さに制限はなく、`min_samples_leaf`は`1`に設定されています。

誤っている記述を選択してください。

Pythonを使用したカテゴリカルな結果を予測するための分類手法を紹介します。分類モデルの構築、トレーニング、評価、決定境界の解釈、一般的なアルゴリズムの実世界データセットへの適用に焦点を当てます。


決定木における過学習の防止

最大木深さ

サンプルの最小数