Summary  
This chapter demonstrates implementing a k-nearest neighbors classification algorithm by fitting a KNeighborsClassifier instance on scaled feature data using StandardScaler and then predicting labels for new samples.  

General domain of usage  
Supervised classification tasks

## KNeighborsClassifier
L'implementazione di k-Nearest Neighbors è piuttosto semplice. È sufficiente importare e utilizzare la classe `KNeighborsClassifier`.

Dopo aver importato la classe e creato un oggetto della classe come segue:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
È necessario fornire i dati di addestramento utilizzando il metodo `.fit()`:
```python
knn.fit(X_scaled, y)
```
E questo è tutto! Ora è possibile prevedere nuovi valori.
```python
y_pred = knn.predict(X_new_scaled)
```

## Scalare i dati

Tuttavia, ricordare che i dati **devono essere scalati**. `StandardScaler` è comunemente utilizzato a questo scopo:

È necessario calcolare $$\bar x$$ e $$s$$ **solo sul set di addestramento** utilizzando `.fit()` o `.fit_transform()`.
Successivamente, utilizzare `.transform()` sul **set di test** affinché entrambi i set siano scalati in modo identico:

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

L'utilizzo di valori di scaling diversi per addestramento e test compromette le predizioni.

## Esempio

Si prevede se una persona apprezza **Star Wars VI** utilizzando le sue valutazioni per gli Episodi IV e V (da <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Dopo l'addestramento, vengono testati due utenti: uno ha valutato IV/V come `5` e `5`, l'altro come `4.5` e `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Quali tra i seguenti nomi di classi di scikit-learn vengono utilizzati per implementare il classificatore k-Nearest Neighbors e per scalare le caratteristiche durante la preparazione dei dati per k-NN?

Apprendi i principali algoritmi di classificazione che alimentano il machine learning moderno. Esplora come modelli come k-NN, regressione logistica, alberi decisionali e foreste casuali effettuano previsioni, valuta la loro accuratezza e comprendi quando utilizzare ciascuno di essi. Sviluppa le competenze per confrontare i modelli e scegliere il più adatto ai tuoi dati.

Scopri come l'algoritmo dei k-nearest neighbors effettua previsioni basate sulla similarità. Impara a gestire più caratteristiche, ottimizzare i parametri e applicare la cross-validazione per migliorare l'accuratezza.

Comprendere come la regressione logistica modella le probabilità e classifica gli esiti. Esercitarsi nell'implementazione, nell'interpretazione delle frontiere di decisione e nell'applicazione della regolarizzazione per prevenire l'overfitting.

Scopri come gli alberi decisionali suddividono i dati in gruppi significativi in base ai valori delle caratteristiche. Esplora come parametri quali la profondità dell'albero e il numero minimo di campioni per foglia influenzano le prestazioni e la generalizzazione del modello.

Esplora come le random forest combinano più alberi decisionali per migliorare accuratezza e robustezza. Comprendi il ruolo della casualità e applica questo metodo ensemble a dati reali.

Valutazione dei modelli utilizzando metriche come accuratezza, precisione, richiamo e F1-score. Interpretazione delle matrici di confusione e confronto tra più classificatori per identificare il modello con le migliori prestazioni.

Implementazione di k-NN

KNeighborsClassifier

Scalare i dati

Esempio