Summary  
This chapter explains how to implement the k-Nearest Neighbors classification algorithm in code using a library’s classifier class, including feature scaling with StandardScaler and the proper use of fit(), transform(), and predict() methods.

General domain of usage  
Recommendation systems

## KNeighborsClassifier
Die Implementierung von k-Nearest Neighbors ist ziemlich unkompliziert. Es ist lediglich erforderlich, die Klasse `KNeighborsClassifier` zu importieren und zu verwenden.

Nachdem die Klasse importiert und ein Klassenobjekt wie folgt erstellt wurde:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
muss das Trainingsdatenset mit der Methode `.fit()` übergeben werden:
```python
knn.fit(X_scaled, y)
```
Das war's! Nun können neue Werte vorhergesagt werden.
```python
y_pred = knn.predict(X_new_scaled)
```

## Skalierung der Daten

Beachte jedoch, dass die Daten **skaliert werden müssen**. `StandardScaler` wird hierfür häufig verwendet:

$$\bar x$$ und $$s$$ **dürfen nur am Trainingsdatensatz** mit `.fit()` oder `.fit_transform()` berechnet werden.
Anschließend wird `.transform()` auf den **Testdatensatz** angewendet, sodass beide Datensätze identisch skaliert sind:

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

Unterschiedliche Skalierungswerte für Training und Test verschlechtern die Vorhersagen.

## Beispiel

Vorhersage, ob eine Person **Star Wars VI** mag, basierend auf ihren Bewertungen für Episode IV und V (aus <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Nach dem Training werden zwei Nutzer getestet: Einer bewertete IV/V mit `5` und `5`, der andere mit `4.5` und `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Welche der folgenden Klassennamen aus scikit-learn werden verwendet, um den k-Nearest Neighbors Klassifikator zu implementieren und Merkmale für k-NN zu skalieren?

Beherrschen Sie die grundlegenden Klassifikationsalgorithmen, die moderne Machine-Learning-Anwendungen antreiben. Erforschen Sie, wie Modelle wie k-NN, logistische Regression, Entscheidungsbäume und Random Forests Vorhersagen treffen, deren Genauigkeit bewerten und verstehen, wann welches Modell eingesetzt wird. Entwickeln Sie die Fähigkeiten, Modelle zu vergleichen und das beste für Ihre Daten auszuwählen.

Erfahren Sie, wie der k-nächste-Nachbarn-Algorithmus Vorhersagen auf Basis von Ähnlichkeiten trifft. Umgang mit mehreren Merkmalen, Parametereinstellung und Anwendung von Kreuzvalidierung zur Verbesserung der Genauigkeit.

Verstehen, wie die logistische Regression Wahrscheinlichkeiten modelliert und Ergebnisse klassifiziert. Anwendung der Implementierung, Interpretation von Entscheidungsgrenzen und Einsatz von Regularisierung zur Vermeidung von Overfitting.

Erfahren Sie, wie Entscheidungsbäume Daten anhand von Merkmalswerten in sinnvolle Gruppen unterteilen. Untersuchen Sie, wie Parameter wie Baumtiefe und minimale Stichprobengröße pro Blatt die Modellleistung und Generalisierung beeinflussen.

Erkunden, wie Random Forests mehrere Entscheidungsbäume kombinieren, um Genauigkeit und Robustheit zu verbessern.
Die Rolle des Zufalls verstehen und diese Ensemble-Methode auf reale Daten anwenden.

Bewertung von Modellen anhand von Metriken wie Genauigkeit, Präzision, Recall und F1-Score. Interpretation von Konfusionsmatrizen und Vergleich mehrerer Klassifikatoren zur Identifikation des leistungsstärksten Modells.

Implementierung von K-NN

KNeighborsClassifier

Skalierung der Daten

Beispiel