Summary  
This chapter describes how to prevent overfitting in decision tree models by tuning hyperparameters such as maximum tree depth and minimum samples per leaf to simplify the tree.  

General domain of usage  
Supervised machine learning classification

Antes de começarmos a implementar uma Árvore de Decisão usando Python, é importante abordar um tema fundamental: **overfitting** – o principal desafio associado às Árvores de Decisão.

Abaixo está um exemplo de como a Árvore de Decisão se ajusta ao conjunto de dados. Observe como o modelo **se adapta aos dados de treinamento**, capturando seus padrões e detalhes:

Embora o modelo **se ajuste perfeitamente ao conjunto de treinamento** sem classificar incorretamente nenhuma instância, o problema é que os limites de decisão ficam **muito complexos**. Consequentemente, a acurácia no teste (ou validação cruzada) será significativamente menor do que a acurácia no conjunto de treinamento, indicando que o modelo está **sofrendo overfitting**.

Isso ocorre porque o modelo fará **quantas divisões forem necessárias** para se ajustar perfeitamente aos dados de treinamento.

Felizmente, a Árvore de Decisão é altamente configurável, permitindo ajustar seus hiperparâmetros para **minimizar o overfitting**.

## Profundidade Máxima da Árvore

**Profundidade** de um nó é a distância (vertical) do nó até o nó raiz.

Podemos restringir a **profundidade máxima** de uma Árvore de Decisão, tornando-a menor e menos propensa ao overfitting. Para isso, transformamos os nós de decisão em uma profundidade máxima em **nós folha**.

Aqui está também um gif mostrando como o limite de decisão muda com diferentes valores de profundidade máxima:

## Número Mínimo de Amostras

Outra forma de restringir a árvore é definir o **número mínimo de amostras** nos nós folha. Isso torna o modelo mais simples e mais robusto a outliers.

É possível observar como esse hiperparâmetro afeta o **limite de decisão**:

Ambos esses hiperparâmetros estão disponíveis na implementação de **Árvore de Decisão do scikit-learn**.  
Por padrão, a árvore é irrestrita: `max_depth` é definido como `None`, ou seja, não há limite de profundidade, e `min_samples_leaf` é definido como `1`.

Domine os principais algoritmos de aprendizado supervisionado e implemente-os utilizando Scikit-learn. Explore regressão linear e polinomial para previsão de preços e avance para classificação com k-NN, Regressão Logística e Árvores de Decisão. Aprenda a avaliar modelos por meio de validação cruzada, controlar overfitting com regularização e otimizar hiperparâmetros. Construa sistemas preditivos robustos e defina limites de decisão complexos para tarefas de classificação multiclasse.

Prevenção de Overfitting em Árvores de Decisão

Profundidade Máxima da Árvore

Número Mínimo de Amostras