Summary  
This chapter explains how to tune a k-nearest neighbors classifier by defining a grid of hyperparameters (n_neighbors, weights, p) and using GridSearchCV to exhaustively search all combinations, then introduces RandomizedSearchCV to sample a subset of combinations for faster hyperparameter optimization.

General domain of usage  
Machine learning hyperparameter optimization

Bevor Sie `GridSearchCV` verwenden, beachten Sie, dass `KNeighborsClassifier` mehr Hyperparameter als nur `n_neighbors` besitzt. Zwei wichtige sind `weights` und `p`.

## Gewichte

Standardmäßig verwendet der Klassifikator `weights='uniform'`, was bedeutet, dass alle *k* Nachbarn gleich gewichtet werden.
Mit `weights='distance'` erhalten **nähere Nachbarn mehr Einfluss**, was die Vorhersagen oft verbessert, wenn nahegelegene Punkte relevanter sind.

## P

Der Parameter `p` steuert die Distanzmetrik:

* `p=1`: **Manhattan-Distanz**;
* `p=2`: **Euklidische Distanz**.

Ein `p`-Parameter kann **jede positive ganze Zahl** annehmen. Es gibt viele verschiedene Distanzen, aber sie sind schwieriger zu visualisieren als `p=1` oder `p=2`.

Machen Sie sich keine Sorgen, wenn die Details von `weights` oder `p` unklar sind. Sie werden lediglich eingeführt, um zu zeigen, dass es **mehr als einen Hyperparameter gibt, der die Vorhersagen des Modells beeinflussen kann**. Betrachten Sie sie als Beispiele für Hyperparameter, die angepasst werden können.


Hinweis

Bisher wurde nur `n_neighbors` angepasst. Um alle drei Hyperparameter zu durchsuchen, verwenden Sie:

```python
param_grid = {
    'n_neighbors': [1, 3, 5, 7],
    'weights': ['distance', 'uniform'],
    'p': [1, 2]
}
```

`GridSearchCV` testet **alle möglichen Kombinationen**, um die beste zu finden, daher werden alle folgenden ausprobiert:

Ein größeres Gitter wie:

```python
param_grid = {
    'n_neighbors': [...],
    'weights': ['distance', 'uniform'],
    'p': [1, 2, 3, 4, 5]
}
```

ergibt 100 Kombinationen. Mit 5-facher Kreuzvalidierung wird das Modell **500 Mal** trainiert.
Für kleine Datensätze ist das akzeptabel, bei größeren wird es jedoch zu langsam.

Um die Rechenzeit zu verkürzen, testet **`RandomizedSearchCV`** nur eine **zufällige Teilmenge** der Kombinationen und erzielt in der Regel deutlich schneller gute Ergebnisse als eine vollständige Gitter-Suche.

Das Hauptproblem von `GridSearchCV` besteht darin, dass alle möglichen Kombinationen (der in `param_grid` angegebenen Werte) ausprobiert werden, was sehr viel Zeit in Anspruch nehmen kann. Ist diese Aussage korrekt?

Maschinelles Lernen wird heute überall eingesetzt. Möchten Sie es selbst erlernen? Dieser Kurs ist eine Einführung in die Welt des maschinellen Lernens, um grundlegende Konzepte zu verstehen, mit Scikit-learn – der beliebtesten Bibliothek für ML – zu arbeiten und Ihr erstes Projekt im Bereich Machine Learning zu erstellen.
Dieser Kurs richtet sich an Studierende mit Grundkenntnissen in Python, Pandas und Numpy.

Erlernen der Konzepte des maschinellen Lernens und des Workflows von ML-Projekten.

Die Vorverarbeitung ist vermutlich die wichtigste Phase eines ML-Projekts. Dieses Kapitel behandelt die notwendigen Vorverarbeitungsschritte für nahezu jedes Datenset.

Eine Pipeline ist eine elegante Methode, um alle Vorverarbeitungsschritte sowie ein Modell zu kombinieren. Pipelines erleichtern das Trainieren und die Nutzung eines Modells erheblich.

Die Modellierung ist die spannendste Phase eines ML-Projekts. Lernen Sie, das Modell zu erstellen, zu optimieren und zu evaluieren.

Der Fehler von GridSearchCV

Gewichte

P