Summary
This chapter covers techniques for handling missing data by either removing incomplete rows or imputing missing values using a column’s mean or median.

General domain of usage
Clustering in machine learning

**Fehlende Werte** sind in realen Datensätzen häufig und müssen **vor der Clusterbildung** behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.

### Auffüllen mit dem Mittelwert

Bei dieser Methode werden fehlende Werte in einer Spalte durch den **Durchschnitt** der vorhandenen Werte ersetzt. Sie ist einfach und erhält den **Spaltenmittelwert**.

```python
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
```

Allerdings kann diese Methode die Varianz verringern und ist möglicherweise nicht für **schiefe Daten** oder **kategorische Merkmale** geeignet.

### Auffüllen mit dem Median

Bei dieser Methode werden fehlende Werte durch den **Median** der vorhandenen Werte in der Spalte ersetzt. Der Median ist **weniger anfällig für Ausreißer** als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.

```python
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
```

### Entfernen von Zeilen mit fehlenden Werten

Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt **keine imputierten Daten** ein. Allerdings kann sie zu **erheblichem Datenverlust** und **Verzerrungen** führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.
  
```python
# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()
```
  
Die Auswahl der besten Methode hängt von den **Daten** und den **Analysezielen** ab. Die Kodierungsdatei zeigt praktische Beispiele für jede Technik im Detail.

Die folgende Code-Datei enthält praktische Beispiele für jede in diesem Abschnitt behandelte **Vorverarbeitungstechnik**, einschließlich des Umgangs mit fehlenden Werten:

Code herunterladen

Welche Methode ist am besten geeignet, um fehlende Werte in einer Spalte mit schief verteilten Daten und Ausreißern zu behandeln?

Erwerben Sie ein fundiertes Verständnis der Clusteranalyse, einer zentralen Methode des unüberwachten Lernens zur Erkennung von Mustern in nicht gekennzeichneten Daten. Lernen Sie die Grundlagen von K-Means, hierarchischem Clustering, DBSCAN und GMMs kennen und sammeln Sie praktische Erfahrungen mit realen Datensätzen, um Sicherheit bei der Anwendung von Clustering auf reale Problemstellungen zu gewinnen.

Tauchen Sie in die Grundlagen der Clusteranalyse ein und erfahren Sie, wie sie sich von der Klassifikation unterscheidet. Erkunden Sie wesentliche Algorithmen, Werkzeuge und Bibliotheken, die diese Methode des unbeaufsichtigten Lernens unterstützen, um verborgene Muster in Daten zu erkennen.

Erwerben Sie ein fundiertes Verständnis der wichtigsten Vorverarbeitungstechniken, die eine effektive Clusterbildung gewährleisten. Erfahren Sie, wie fehlende Werte behandelt, kategoriale Merkmale codiert, Daten normalisiert und geeignete Distanzmaße sowie Verknüpfungen ausgewählt werden, um die Genauigkeit der Clusterbildung zu erhöhen.

Beherrschen der Fähigkeiten zur effektiven Anwendung des K-Means-Clusterings. Verständnis der Funktionsweise des Algorithmus. Bestimmung der optimalen Clusteranzahl. Praktische Erfahrung durch Implementierung von K-Means auf synthetischen und realen Datensätzen.

Erkunden Sie die Grundlagen des hierarchischen Clusterings und erfahren Sie, wie Daten mithilfe von Dendrogrammen in sinnvolle Cluster gruppiert werden. Sicherheit beim Erkennen der optimalen Clusteranzahl und Anwendung der Methode auf synthetische sowie reale Datensätze.

Erfahren Sie, wie DBSCAN bei der Erkennung von Clustern unterschiedlicher Formen und der Handhabung von Ausreißern in Daten überzeugt. Verstehen Sie die Mechanismen dieses dichtebasierten Algorithmus, die Zuordnung von Punkten zu Clustern und die Anwendung auf synthetische sowie reale Datensätze.

Fundierte Kenntnisse über Gaußsche Mischmodelle und deren Verwendung von Wahrscheinlichkeiten zur Modellierung komplexer Clusterformen. Prinzipien der Gaußschen Verteilung. Funktionsweise von GMMs. Anwendung auf Dummy- und Realweltdaten zur Festigung des Verständnisses.

Umgang mit Fehlenden Werten

Auffüllen mit dem Mittelwert

Auffüllen mit dem Median

Entfernen von Zeilen mit fehlenden Werten