Summary  
This chapter explains how to implement the k-Nearest Neighbors classification algorithm in code using a library’s classifier class, including feature scaling with StandardScaler and the proper use of fit(), transform(), and predict() methods.

General domain of usage  
Recommendation systems

## KNeighborsClassifier
Att implementera k-Nearest Neighbors är ganska enkelt. Det enda som krävs är att importera och använda klassen `KNeighborsClassifier`.

När du har importerat klassen och skapat ett klassobjekt så här:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
Mata in träningsdata med metoden `.fit()`:
```python
knn.fit(X_scaled, y)
```
Klart! Nu kan du förutsäga nya värden.
```python
y_pred = knn.predict(X_new_scaled)
```

## Skalning av data

Observera dock att data **måste skalas**. `StandardScaler` används ofta för detta ändamål:

Du måste beräkna $$\bar x$$ och $$s$$ **endast på träningsmängden** med hjälp av `.fit()` eller `.fit_transform()`.
Använd sedan `.transform()` på **testmängden** så att båda mängderna skalas identiskt:

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

Att använda olika skalningsvärden för träning och test försämrar prediktionerna.

## Exempel

Vi förutspår om en person tycker om **Star Wars VI** genom att använda deras betyg för Episod IV och V (från <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Efter träning testar vi två användare: en gav IV/V betygen `5` och `5`, den andra gav `4.5` och `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Vilka av följande klassnamn från scikit-learn används för att implementera k-Nearest Neighbors-klassificeraren och för att skala funktioner vid förberedelse av data för k-NN?

Behärska de centrala klassificeringsalgoritmerna som driver modern maskininlärning. Utforska hur modeller som k-NN, logistisk regression, beslutsträd och random forests gör prediktioner, utvärderar deras noggrannhet och förstå när varje modell bör användas. Bygg upp färdigheter för att jämföra modeller och välja den mest lämpliga för dina data.

Utforska hur algoritmen k-närmsta grannar gör förutsägelser baserat på likhet. Lär dig hantera flera variabler, justera parametrar och använda korsvalidering för att förbättra noggrannheten.

Förstå hur logistisk regression modellerar sannolikheter och klassificerar utfall. Öva på att implementera metoden, tolka beslutsgränser och tillämpa regularisering för att förhindra överanpassning.

Lär dig hur beslutsträd delar upp data i meningsfulla grupper baserat på egenskapsvärden. Utforska hur parametrar som trädets djup och minsta antal prover per blad påverkar modellens prestanda och generaliseringsförmåga.

Utforska hur random forest kombinerar flera beslutsträd för att förbättra noggrannhet och robusthet. Förstå slumpens roll och tillämpa denna ensemblemetod på verkliga data.

Utvärdera modeller med hjälp av mått såsom noggrannhet, precision, återkallelse och F1-poäng. Lära sig att tolka förväxlingsmatriser och jämföra flera klassificerare för att identifiera den modell som presterar bäst.

Implementering av k-NN

KNeighborsClassifier

Skalning av data

Exempel