Summary  
This chapter covers implementing a k-Nearest Neighbors classifier using scikit-learn—showing how to fit the model, make predictions, and preprocess data with standard scaling.  

General domain of usage  
Movie preference prediction 

## KNeighborsClassifier
Implementering av k-Nearest Neighbors er ganske rett frem. Det eneste som trengs er å importere og bruke klassen `KNeighborsClassifier`.

### Konstruktør:
* `KNeighborsClassifier(n_neighbors = 5)`
* `n_neighbors` – antall naboer (k). Standardverdi er 5;

### Metoder:
* `fit(X, y)` – Tilpass treningssettet;
* `predict(X)` – Prediker klassen for X;
* `score(X, y)` – Returnerer nøyaktigheten for X, y-settet.

Når du har importert klassen og opprettet et klasseobjekt slik:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
Må du mate inn treningsdataene ved å bruke `.fit()`-metoden:
```python
knn.fit(X_scaled, y)
```
Det er alt! Nå kan du predikere nye verdier.
```python
y_pred = knn.predict(X_new_scaled)
```

## Skalering av data

Det er imidlertid viktig å huske at dataene **må skaleres**. `StandardScaler` brukes ofte til dette formålet:

### Konstruktør:
* `StandardScaler()`.

### Metoder:
* `fit(X)` – beregner $$\bar{x}$$ og $$s$$ for X;
* `transform(X)` – returnerer $$X_{\text{scaled}}$$ ved bruk av $$\bar{x}, s$$ fra `.fit()`;
* `fit_transform(X)` – `.fit(X)` deretter `.transform(X)`.

Du må beregne $$\bar x$$ og $$s$$ **kun på treningssettet** ved å bruke `.fit()` eller `.fit_transform()`.
Bruk deretter `.transform()` på **testsettet** slik at begge settene skaleres identisk:

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

Å bruke ulike skaleringsverdier for trening og test svekker prediksjonene.

## Eksempel

Vi forutsier om en person liker **Star Wars VI** ved å bruke deres vurderinger for Episode IV og V (fra <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Etter trening tester vi to brukere: én vurderte IV/V som `5` og `5`, den andre som `4.5` og `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Hvilke av følgende klassenavn fra scikit-learn brukes til å implementere k-Nearest Neighbors-klassifiseringen og til å skalere funksjoner ved forberedelse av data for k-NN?

Behersk de grunnleggende algoritmene innen overvåket læring og implementer dem ved hjelp av Scikit-learn. Utforsk lineær og polynomisk regresjon for prisestimering, og gå videre til klassifisering med k-NN, logistisk regresjon og beslutningstrær. Lær å evaluere modeller gjennom kryssvalidering, håndtere overtilpasning med regularisering og optimalisere hyperparametere. Bygg robuste prediktive systemer og definer komplekse beslutningsgrenser for oppgaver med multiklasseklassifisering.

Implementering av k-NN

KNeighborsClassifier

Konstruktør:

Metoder:

Skalering av data

Konstruktør:

Metoder:

Eksempel