Summary  
This chapter covers transforming categorical features into numerical form using ordinal encoding for ordered categories and one-hot encoding for nominal categories.

General domain of usage  
Machine learning data preprocessing

Gli algoritmi di clustering come **K-means** richiedono **dati numerici**. Le caratteristiche categoriche devono essere convertite in forma numerica tramite codifica. Verranno illustrati la **codifica ordinale** e la **one-hot encoding**.

## Codifica Ordinale

La **codifica ordinale** trasforma categorie ordinate in valori numerici, preservando il loro **ordine gerarchico**. Ad esempio, la codifica ordinale della colonna `'education_level'` trasformerà i suoi valori da `"High School"`, `"Bachelor's"`, `"Master's"`, `'PhD'` a `0`, `1`, `2`, `3`.

Questo presuppone una **differenza numerica significativa** tra i valori codificati, che potrebbe non essere sempre corretta.

```python
from sklearn.preprocessing import OrdinalEncoder

education_levels = [['High School',
                     "Bachelor's",
                     "Master's",
                     "PhD"]]
encoder = OrdinalEncoder(categories=education_levels)

df[['education_encoded']] = encoder.fit_transform(df[['education_level']]) 
```

Questa codifica dovrebbe essere utilizzata solo per **caratteristiche ordinali** in cui l'ordine delle categorie è rilevante.

Nota

## Codifica One-Hot

La codifica one-hot converte le categorie **nominali** (senza ordine) in colonne binarie, dove ogni categoria diventa una **nuova colonna**. Per una caratteristica con `n` categorie, questo di solito crea `n` colonne: una colonna è `1` per la categoria corrispondente, le altre sono `0`. Tuttavia, sono necessarie solo `n-1` colonne per rappresentare l'informazione **senza ridondanza**.

Ad esempio, una colonna `'color'` con valori `'red'`, `'blue'` e `'green'` può essere codificata con solo **due** colonne: `'color_red'` e `'color_blue'`. Se una riga ha `0` in entrambe, significa che il colore è `'green'`. Eliminando una colonna, si evita la **ridondanza**.

La rimozione della colonna ridondante è specificata tramite `drop='first'`:

```python
from sklearn.preprocessing import OneHotEncoder 

encoder = OneHotEncoder(drop='first', sparse=False) 

encoded = encoder.fit_transform(df[['color']]) 
```



Sebbene la codifica one-hot eviti di imporre un ordine e sia adatta a caratteristiche nominali, può aumentare la **dimensionalità dei dati**.

Quale metodo di codifica è più adatto per una caratteristica categorica come `'country'` con valori come `"USA"`, `"Canada"` e `"Germany"`, dove non esiste un ordine naturale?

Acquisire una solida comprensione dell'analisi dei cluster, una tecnica fondamentale di apprendimento non supervisionato per individuare schemi in dati non etichettati. Esplorare i concetti essenziali di K-Means, Clustering Gerarchico, DBSCAN e GMM, con esperienza pratica su dataset reali per rafforzare la fiducia nell'applicazione del clustering a problemi reali.

Approfondimento sui fondamenti del clustering e sulle differenze rispetto alla classificazione. Esplorazione degli algoritmi, strumenti e librerie essenziali che alimentano questa tecnica di apprendimento non supervisionato per individuare schemi nascosti nei dati.

Acquisizione di una solida comprensione delle principali tecniche di preprocessamento che garantiscono un clustering efficace. Gestione dei valori mancanti, codifica delle variabili categoriche, normalizzazione dei dati e selezione di misure di distanza e metodi di collegamento appropriati per migliorare l'accuratezza del clustering.

Acquisire le competenze necessarie per applicare efficacemente il clustering K-Means. Comprendere il funzionamento dell'algoritmo, determinare il numero ottimale di cluster e acquisire esperienza pratica implementando K-Means su dataset sintetici e reali.

Esplora i fondamenti della clusterizzazione gerarchica e scopri come raggruppare i dati in cluster significativi utilizzando i dendrogrammi. Acquisizione di competenze nell'identificazione del numero ottimale di cluster e nell'applicazione della tecnica su dataset sintetici e reali.

Scopri come DBSCAN eccelle nell'individuare cluster di forme diverse e nella gestione del rumore nei dati. Esplora i meccanismi alla base di questo algoritmo basato sulla densità, le modalità di assegnazione dei punti ai cluster e la sua applicazione sia a set di dati sintetici che reali con sicurezza.

Acquisire una solida comprensione dei Gaussian Mixture Models e di come utilizzano la probabilità per modellare forme di cluster complesse. Esaminare i principi della distribuzione gaussiana, analizzare il funzionamento dei GMM e consolidare le conoscenze applicandoli sia a dati simulati che reali.

Codifica delle Caratteristiche Categorical

Codifica Ordinale

Codifica One-Hot