Summary  
This chapter explains how to prevent overfitting in decision trees by tuning hyperparameters—specifically limiting the maximum depth and setting a minimum number of samples per leaf—to simplify the model and improve generalization.

General domain of usage  
Machine learning classification

Prima di procedere con l'implementazione di un Decision Tree utilizzando Python, è necessario affrontare un argomento importante: **overfitting** - la principale sfida associata ai Decision Tree.

Di seguito è riportato un esempio di come il Decision Tree si adatti al dataset. Si noti come il modello **si adatti ai dati di addestramento**, catturandone schemi e particolarità:

Sebbene il modello **adatti perfettamente il set di addestramento** senza classificare erroneamente alcuna istanza, il problema è che i confini decisionali risultano **troppo complessi**. Di conseguenza, l'accuratezza sul test (o sulla cross-validazione) sarà significativamente inferiore rispetto a quella del set di addestramento, indicando che il modello **soffre di overfitting**.

La causa di ciò è che il modello effettua **tante suddivisioni quante sono necessarie** per adattarsi perfettamente ai dati di addestramento.

Fortunatamente, il Decision Tree è altamente configurabile, quindi è possibile regolare i suoi iperparametri per **minimizzare l'overfitting**.

## Profondità Massima dell'Albero

La **profondità** di un nodo è la distanza (verticale) dal nodo alla radice dell'albero.

È possibile limitare la **profondità massima** di un albero decisionale, rendendolo più piccolo e meno soggetto a overfitting. Per ottenere ciò, i nodi decisionali alla profondità massima vengono trasformati in **nodi foglia**.

Di seguito è presente anche una gif che mostra come il confine decisionale cambia con diversi valori di profondità massima:

## Numero minimo di campioni

Un altro modo per limitare l'albero è impostare il **numero minimo di campioni** sui nodi foglia. Questo rende il modello più semplice e più robusto rispetto ai valori anomali.

È possibile osservare come questo iperparametro influenzi il **confine decisionale**:

Entrambi questi iperparametri sono disponibili nell'implementazione dell'**albero decisionale di scikit-learn**.  
Per impostazione predefinita, l'albero non ha vincoli: `max_depth` è impostato su `None`, il che significa che non c'è limite alla profondità, e `min_samples_leaf` è impostato su `1`.

Apprendi i principali algoritmi di classificazione che alimentano il machine learning moderno. Esplora come modelli come k-NN, regressione logistica, alberi decisionali e foreste casuali effettuano previsioni, valuta la loro accuratezza e comprendi quando utilizzare ciascuno di essi. Sviluppa le competenze per confrontare i modelli e scegliere il più adatto ai tuoi dati.

Scopri come l'algoritmo dei k-nearest neighbors effettua previsioni basate sulla similarità. Impara a gestire più caratteristiche, ottimizzare i parametri e applicare la cross-validazione per migliorare l'accuratezza.

Comprendere come la regressione logistica modella le probabilità e classifica gli esiti. Esercitarsi nell'implementazione, nell'interpretazione delle frontiere di decisione e nell'applicazione della regolarizzazione per prevenire l'overfitting.

Scopri come gli alberi decisionali suddividono i dati in gruppi significativi in base ai valori delle caratteristiche. Esplora come parametri quali la profondità dell'albero e il numero minimo di campioni per foglia influenzano le prestazioni e la generalizzazione del modello.

Esplora come le random forest combinano più alberi decisionali per migliorare accuratezza e robustezza. Comprendi il ruolo della casualità e applica questo metodo ensemble a dati reali.

Valutazione dei modelli utilizzando metriche come accuratezza, precisione, richiamo e F1-score. Interpretazione delle matrici di confusione e confronto tra più classificatori per identificare il modello con le migliori prestazioni.

Prevenzione dell'Overfitting negli Alberi Decisionali

Profondità Massima dell'Albero

Numero minimo di campioni