Summary  
This chapter describes how to prevent overfitting in decision tree models by tuning hyperparameters such as maximum tree depth and minimum samples per leaf to simplify the tree.  

General domain of usage  
Supervised machine learning classification

Prima di procedere con l'implementazione di un albero decisionale utilizzando Python, è necessario affrontare un argomento importante: **overfitting** - la principale sfida associata agli alberi decisionali.

Di seguito è riportato un esempio di come l'albero decisionale si adatti al dataset. Si noti come il modello **si adatti ai dati di addestramento**, catturandone schemi e particolarità:

Sebbene il modello **adatti perfettamente il set di addestramento** senza classificare erroneamente alcuna istanza, il problema è che i confini decisionali risultano **troppo complessi**. Di conseguenza, l'accuratezza sul test (o sulla cross-validazione) sarà significativamente inferiore rispetto a quella del set di addestramento, indicando che il modello **soffre di overfitting**.

La causa di ciò è che il modello effettua **tante suddivisioni quante sono necessarie** per adattarsi perfettamente ai dati di addestramento.

Fortunatamente, l'albero decisionale è altamente configurabile, quindi è possibile regolare i suoi iperparametri per **minimizzare l'overfitting**.

## Profondità Massima dell'Albero

La **profondità** di un nodo è la distanza (verticale) dal nodo alla radice dell'albero.

È possibile limitare la **profondità massima** di un albero decisionale, rendendolo più piccolo e meno soggetto a overfitting. Per farlo, si trasformano i nodi decisionali alla profondità massima in **nodi foglia**.

Segue una gif che mostra come il confine decisionale cambia con diversi valori di profondità massima:

## Numero minimo di campioni

Un altro modo per vincolare l'albero è impostare il **numero minimo di campioni** sui nodi foglia. Questo rende il modello più semplice e più robusto rispetto ai valori anomali.

È possibile osservare come questo iperparametro influenzi il **confine decisionale**:

Entrambi questi iperparametri sono disponibili nell'implementazione dell'**albero decisionale di scikit-learn**.  
Per impostazione predefinita, l'albero non è vincolato: `max_depth` è impostato su `None`, il che significa che non c'è limite alla profondità, e `min_samples_leaf` è impostato su `1`.

Apprendere gli algoritmi fondamentali dell'apprendimento supervisionato e implementarli utilizzando Scikit-learn. Esplorare la regressione lineare e polinomiale per la previsione dei prezzi, passando alla classificazione tramite k-NN, Regressione Logistica e Alberi Decisionali. Valutare i modelli tramite cross-validation, gestire l'overfitting con la regolarizzazione e ottimizzare gli iperparametri. Costruire sistemi predittivi robusti e definire confini decisionali complessi per compiti di classificazione multi-classe.

Prevenzione dell'Overfitting negli Alberi Decisionali

Profondità Massima dell'Albero

Numero minimo di campioni