Summary  
This chapter covers transforming categorical features into numerical form using ordinal encoding for ordered categories and one-hot encoding for nominal categories.

General domain of usage  
Machine learning data preprocessing

Klustringsalgoritmer som **K-means** kräver **numerisk data**. Kategoriska variabler måste omvandlas till numerisk form genom kodning. Du kommer att lära dig om **ordinal** och **one-hot encoding**.

## Ordinal kodning 

**Ordinal kodning** omvandlar ordnade kategorier till numeriska värden och bevarar deras **rangordning**. Till exempel kommer ordinal kodning av kolumnen `'education_level'` att omvandla dess värden från `"High School"`, `"Bachelor's"`, `"Master's"`, `'PhD'` till `0`, `1`, `2`, `3`. 

Detta förutsätter en **meningsfull numerisk skillnad** mellan de kodade värdena, vilket inte alltid är korrekt.

```python
from sklearn.preprocessing import OrdinalEncoder

education_levels = [['High School',
                     "Bachelor's",
                     "Master's",
                     "PhD"]]
encoder = OrdinalEncoder(categories=education_levels)

df[['education_encoded']] = encoder.fit_transform(df[['education_level']]) 
```

Denna kodning bör endast användas för **ordinala variabler** där kategoriernas ordning är viktig.

Notera

## One-hot-kodning

One-hot-kodning omvandlar **nominala** (oordnade) kategorier till binära kolumner, där varje kategori blir en **ny kolumn**. För en variabel med `n` kategorier skapas vanligtvis `n` kolumner — en kolumn är `1` för motsvarande kategori och de andra är `0`. Dock behövs endast `n-1` kolumner för att representera informationen **utan redundans**.

Till exempel kan en `'color'`-kolumn med värdena `'red'`, `'blue'` och `'green'` kodas med endast **två** kolumner: `'color_red'` och `'color_blue'`. Om en rad har `0` i båda, innebär det att färgen är `'green'`. Genom att ta bort en kolumn undviks **redundans**.

Borttagning av den redundanta kolumnen anges via `drop='first'`:

```python
from sklearn.preprocessing import OneHotEncoder 

encoder = OneHotEncoder(drop='first', sparse=False) 

encoded = encoder.fit_transform(df[['color']]) 
```



Även om one-hot-kodning undviker att införa ordning och passar nominala variabler, kan det öka **datadimensionaliteten**.

Vilken kodningsmetod är bäst lämpad för en kategorisk variabel som `'country'` med värden som `"USA"`, `"Canada"` och `"Germany"`, där det inte finns någon naturlig ordning?

Få en gedigen förståelse för klusteranalys, en central teknik inom osupervised learning för att identifiera mönster i oetiketterad data. Utforska grunderna i K-Means, Hierarkisk klustring, DBSCAN och GMM, samt få praktisk erfarenhet med verkliga datamängder för att bygga upp förtroende i att tillämpa klustring på verkliga problem.

Fördjupa dig i grunderna för klustring och upptäck hur det skiljer sig från klassificering. Utforska grundläggande algoritmer, verktyg och bibliotek som driver denna oövervakade inlärningsteknik för att avslöja dolda mönster i data.

Få en gedigen förståelse för centrala förbehandlingstekniker som säkerställer effektiv klustring.
Hantering av saknade värden.
Kodning av kategoriska variabler.
Normalisering av data.
Val av lämpliga avståndsmått och länkningar för att förbättra klustringsnoggrannheten.

Behärska de färdigheter som krävs för att tillämpa K-Means-klustring effektivt. Förstå hur algoritmen fungerar, fastställ det optimala antalet kluster och få praktisk erfarenhet genom att implementera K-Means på både syntetiska och verkliga datamängder.

Utforska grunderna i hierarkisk klustring och lär dig att gruppera data i meningsfulla kluster med hjälp av dendrogram. Få förståelse för att identifiera det optimala antalet kluster och tillämpa tekniken på både syntetiska och verkliga dataset.

Utforska hur DBSCAN utmärker sig vid identifiering av kluster med varierande former och hantering av brus i data. Förstå mekanismerna bakom denna täthetsbaserade algoritm, hur punkter tilldelas kluster samt tillämpa den på både syntetiska och verkliga datamängder med säkerhet.

Få en gedigen förståelse för Gaussiska Mixturmodeller och hur de använder sannolikhet för att modellera komplexa klusterformer. Utforska principerna bakom Gaussisk fördelning, undersök hur GMM fungerar och stärk din kompetens genom att tillämpa dem på både simulerad och verklig data.

Kodning av Kategoriska Variabler

Ordinal kodning

One-hot-kodning