Summary  
This chapter explains how to tune a k-nearest neighbors classifier by defining a grid of hyperparameters (n_neighbors, weights, p) and using GridSearchCV to exhaustively search all combinations, then introduces RandomizedSearchCV to sample a subset of combinations for faster hyperparameter optimization.

General domain of usage  
Machine learning hyperparameter optimization

Innan du använder `GridSearchCV`, observera att `KNeighborsClassifier` har fler hyperparametrar än `n_neighbors`. Två viktiga är `weights` och `p`.

## Weights

Som standard använder klassificeraren `weights='uniform'`, vilket innebär att alla *k* grannar röstar lika mycket.
Om `weights='distance'` anges får **närmare grannar större inflytande**, vilket ofta förbättrar prediktionerna när närliggande punkter är mer relevanta.

## P

Parametern `p` styr avståndsmåttet:

* `p=1`: **Manhattan-avstånd**;
* `p=2`: **Euklidiskt avstånd**.

En `p`-parameter kan anta **vilket positivt heltal som helst**. Det finns många olika avstånd, men de är svårare att visualisera än `p=1` eller `p=2`.

Oroa dig inte om detaljerna kring `weights` eller `p` är oklara. De introduceras enbart för att visa att det finns **fler än en hyperparameter som kan påverka modellens prediktioner**. Betrakta dem som exempel på hyperparametrar som kan justeras.


Notera

Tidigare justerades endast `n_neighbors`. För att söka över alla tre hyperparametrar, använd:

```python
param_grid = {
    'n_neighbors': [1, 3, 5, 7],
    'weights': ['distance', 'uniform'],
    'p': [1, 2]
}
```

`GridSearchCV` testar **alla möjliga kombinationer** för att hitta den bästa, så den kommer att prova alla dessa:

Ett större rutnät som:

```python
param_grid = {
    'n_neighbors': [...],
    'weights': ['distance', 'uniform'],
    'p': [1, 2, 3, 4, 5]
}
```

skapar 100 kombinationer. Med 5-faldig korsvalidering tränas modellen **500 gånger**.
Detta är acceptabelt för små datamängder, men för större blir det för långsamt.

För att minska beräkningstiden testar **`RandomizedSearchCV`** endast en **slumpmässig delmängd** av kombinationerna, och hittar vanligtvis starka resultat mycket snabbare än en fullständig rutnätssökning.

Huvudproblemet med `GridSearchCV` är att den testar alla möjliga kombinationer (av det som anges i `param_grid`), vilket kan ta mycket tid. Är detta påstående korrekt?

Maskininlärning används nu överallt. Vill du lära dig det själv? Denna kurs är en introduktion till maskininlärningens värld där du får lära dig grundläggande begrepp, arbeta med scikit-learn – det mest populära biblioteket för ML, och bygga ditt första maskininlärningsprojekt.
Kursen är avsedd för studenter med grundläggande kunskaper i Python, Pandas och Numpy.

Lär dig maskininlärningskoncept och arbetsflödet för ML-projekt.

Förbehandling är troligen det viktigaste steget i ett ML-projekt. Detta kapitel behandlar de förbehandlingssteg som krävs för nästan alla datamängder.

En pipeline är ett smidigt sätt att kombinera alla förbehandlingssteg samt en modell. Pipelines gör det mycket enklare att träna och använda en modell.

Modellering är det mest underhållande steget i ett ML-projekt. Lär dig att bygga, finjustera och utvärdera modellen!

Bristen Med GridSearchCV

Weights

P