Summary  
This chapter covers transforming categorical features into numerical form using ordinal encoding for ordered categories and one-hot encoding for nominal categories.

General domain of usage  
Machine learning data preprocessing

Clustering-Algorithmen wie **K-means** benötigen **numerische Daten**. Kategorische Merkmale müssen durch Kodierung in numerische Form umgewandelt werden. Sie lernen **ordinale** und **One-Hot-Kodierung** kennen.

## Ordinale Kodierung

**Ordinale Kodierung** wandelt geordnete Kategorien in numerische Werte um und erhält deren **Rangfolge**. Zum Beispiel transformiert die ordinale Kodierung der Spalte `'education_level'` deren Werte von `"High School"`, `"Bachelor's"`, `"Master's"`, `'PhD'` zu `0`, `1`, `2`, `3`.

Dies setzt einen **bedeutungsvollen numerischen Unterschied** zwischen den kodierten Werten voraus, was nicht immer zutreffend ist.

```python
from sklearn.preprocessing import OrdinalEncoder

education_levels = [['High School',
                     "Bachelor's",
                     "Master's",
                     "PhD"]]
encoder = OrdinalEncoder(categories=education_levels)

df[['education_encoded']] = encoder.fit_transform(df[['education_level']]) 
```

Solche Kodierung sollte nur für **ordinale Merkmale** verwendet werden, bei denen die Reihenfolge der Kategorien relevant ist.

Hinweis

## One-Hot-Encoding

One-Hot-Encoding wandelt **nominale** (ungeordnete) Kategorien in binäre Spalten um, wobei jede Kategorie zu einer **neuen Spalte** wird. Für ein Merkmal mit `n` Kategorien entstehen typischerweise `n` Spalten — eine Spalte ist für die entsprechende Kategorie `1`, die anderen sind `0`. Tatsächlich werden jedoch nur `n-1` Spalten benötigt, um die Information **ohne Redundanz** darzustellen.

Beispielsweise kann eine `'color'`-Spalte mit den Werten `'red'`, `'blue'` und `'green'` mit nur **zwei** Spalten kodiert werden: `'color_red'` und `'color_blue'`. Wenn eine Zeile in beiden Spalten `0` hat, bedeutet dies, dass die Farbe `'green'` ist. Durch das Entfernen einer Spalte wird **Redundanz** vermieden.

Das Entfernen der redundanten Spalte wird über `drop='first'` festgelegt:

```python
from sklearn.preprocessing import OneHotEncoder 

encoder = OneHotEncoder(drop='first', sparse=False) 

encoded = encoder.fit_transform(df[['color']]) 
```



Obwohl One-Hot-Encoding keine Ordnung vorgibt und sich für nominale Merkmale eignet, kann es die **Daten-Dimensionalität** erhöhen.

Welche Kodierungsmethode eignet sich am besten für ein kategoriales Merkmal wie `'country'` mit Werten wie `"USA"`, `"Canada"` und `"Germany"`, bei denen keine natürliche Reihenfolge besteht?

Erwerben Sie ein fundiertes Verständnis der Clusteranalyse, einer zentralen Methode des unüberwachten Lernens zur Erkennung von Mustern in nicht gekennzeichneten Daten. Lernen Sie die Grundlagen von K-Means, hierarchischem Clustering, DBSCAN und GMMs kennen und sammeln Sie praktische Erfahrungen mit realen Datensätzen, um Sicherheit bei der Anwendung von Clustering auf reale Problemstellungen zu gewinnen.

Tauchen Sie in die Grundlagen der Clusteranalyse ein und erfahren Sie, wie sie sich von der Klassifikation unterscheidet. Erkunden Sie wesentliche Algorithmen, Werkzeuge und Bibliotheken, die diese Methode des unbeaufsichtigten Lernens unterstützen, um verborgene Muster in Daten zu erkennen.

Erwerben Sie ein fundiertes Verständnis der wichtigsten Vorverarbeitungstechniken, die eine effektive Clusterbildung gewährleisten. Erfahren Sie, wie fehlende Werte behandelt, kategoriale Merkmale codiert, Daten normalisiert und geeignete Distanzmaße sowie Verknüpfungen ausgewählt werden, um die Genauigkeit der Clusterbildung zu erhöhen.

Beherrschen der Fähigkeiten zur effektiven Anwendung des K-Means-Clusterings. Verständnis der Funktionsweise des Algorithmus. Bestimmung der optimalen Clusteranzahl. Praktische Erfahrung durch Implementierung von K-Means auf synthetischen und realen Datensätzen.

Erkunden Sie die Grundlagen des hierarchischen Clusterings und erfahren Sie, wie Daten mithilfe von Dendrogrammen in sinnvolle Cluster gruppiert werden. Sicherheit beim Erkennen der optimalen Clusteranzahl und Anwendung der Methode auf synthetische sowie reale Datensätze.

Erfahren Sie, wie DBSCAN bei der Erkennung von Clustern unterschiedlicher Formen und der Handhabung von Ausreißern in Daten überzeugt. Verstehen Sie die Mechanismen dieses dichtebasierten Algorithmus, die Zuordnung von Punkten zu Clustern und die Anwendung auf synthetische sowie reale Datensätze.

Fundierte Kenntnisse über Gaußsche Mischmodelle und deren Verwendung von Wahrscheinlichkeiten zur Modellierung komplexer Clusterformen. Prinzipien der Gaußschen Verteilung. Funktionsweise von GMMs. Anwendung auf Dummy- und Realweltdaten zur Festigung des Verständnisses.

Kodierung Kategorialer Merkmale

Ordinale Kodierung

One-Hot-Encoding