Summary  
This chapter explains how to perform supervised classification by encoding categorical targets (binary, multi-class, and multi-label) into numeric form and training models such as k-Nearest Neighbors, logistic regression, decision trees, and random forests.  

General domain of usage  
Email spam detection

**Klassifikation** ist eine Aufgabe des überwachten Lernens, bei der das Ziel darin besteht, die Klasse einer Instanz anhand ihrer **Merkmale** vorherzusagen. Das Modell lernt aus gelabelten Beispielen in einem **Trainingsdatensatz** und ordnet anschließend neue, unbekannte Daten einer Klasse zu.

Regression sagt einen **kontinuierlichen numerischen Wert** voraus (z. B. Preis), der viele mögliche Werte annehmen kann.
Klassifikation sagt einen **kategorischen Wert** voraus (z. B. Süßigkeitstyp) und wählt eine Option aus einer begrenzten Anzahl von Klassen aus.

Es gibt verschiedene Arten der Klassifikation:

* **Binäre Klassifikation:** Das Ziel hat zwei mögliche Ausprägungen (Spam/Nicht-Spam, Keks/Nicht-Keks);
* **Mehrklassenklassifikation:** Drei oder mehr mögliche Kategorien (Spam/Wichtig/Werbung/Andere; Keks/Marshmallow/Bonbon);
* **Mehrlabel-Klassifikation:** Eine Instanz kann **mehreren Klassen gleichzeitig** zugeordnet werden (ein Film kann Action *und* Komödie sein; eine E-Mail kann wichtig *und* arbeitsbezogen sein).


Für die meisten ML-Modelle muss das Ziel in eine Zahl kodiert werden. Bei der **binären** Klassifikation werden die Ausgänge üblicherweise als 0/1 kodiert (z. B. 1 - Keks, 0 - kein Keks). Bei einer **Mehrklassen**-Klassifikation werden die Ausgänge üblicherweise als 0, 1, 2, ... kodiert (z. B. 0 - Bonbon, 1 - Keks, 2 - Marshmallow).

Viele verschiedene Modelle können Klassifikationsaufgaben durchführen. Einige Beispiele sind:
- k-Nearest Neighbors;
- Logistische Regression;
- Entscheidungsbaum;
- Random Forest.

Glücklicherweise sind sie alle in der **scikit-learn**-Bibliothek implementiert und einfach zu verwenden.

Kein Machine-Learning-Modell ist einem anderen grundsätzlich überlegen. Welches Modell am besten abschneidet, hängt von der jeweiligen Aufgabe ab.

Hinweis

Was ist das Hauptziel der Klassifikation im maschinellen Lernen?

Beherrschung der grundlegenden Algorithmen des überwachten Lernens und deren Implementierung mit Scikit-learn. Untersuchung von linearer und polynomialer Regression zur Preisvorhersage sowie Übergang zur Klassifikation mit k-NN, logistischer Regression und Entscheidungsbäumen. Bewertung von Modellen durch Kreuzvalidierung, Steuerung von Overfitting mittels Regularisierung und Optimierung von Hyperparametern. Aufbau robuster prädiktiver Systeme und Definition komplexer Entscheidungsgrenzen für Aufgaben der Mehrklassenklassifikation.

Was ist Klassifikation