Summary  
This chapter covers implementing a k-Nearest Neighbors classifier using scikit-learn—showing how to fit the model, make predictions, and preprocess data with standard scaling.  

General domain of usage  
Movie preference prediction 

## KNeighborsClassifier
A implementação do k-Nearest Neighbors é bastante direta. Basta importar e utilizar a classe `KNeighborsClassifier`.

### Construtor:
* `KNeighborsClassifier(n_neighbors = 5)`
* `n_neighbors` – número de vizinhos (k). O valor padrão é 5;

### Métodos:
* `fit(X, y)` – Ajusta o conjunto de treinamento;
* `predict(X)` – Prediz a classe para X;
* `score(X, y)` – Retorna a acurácia para o conjunto X, y.

Após importar a classe e criar um objeto da classe desta forma:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
É necessário fornecer os dados de treinamento utilizando o método `.fit()`:
```python
knn.fit(X_scaled, y)
```
E pronto! Agora é possível prever novos valores.
```python
y_pred = knn.predict(X_new_scaled)
```

## Escalonamento dos dados

No entanto, lembre-se de que os dados **devem ser escalonados**. O `StandardScaler` é comumente utilizado para esse fim:

### Construtor:
* `StandardScaler()`.

### Métodos:
* `fit(X)` – calcula $$\bar{x}$$ e $$s$$ para X;
* `transform(X)` – retorna $$X_{\text{scaled}}$$ utilizando $$\bar{x}, s$$ do `.fit()`;
* `fit_transform(X)` – executa `.fit(X)` e depois `.transform(X)`.

Você deve calcular $$\bar x$$ e $$s$$ **apenas no conjunto de treinamento** usando `.fit()` ou `.fit_transform()`.
Em seguida, utilize `.transform()` no **conjunto de teste** para que ambos os conjuntos sejam escalados de forma idêntica:

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

Utilizar valores de escala diferentes para treino e teste prejudica as previsões.

## Exemplo

Prevê-se se uma pessoa gosta de **Star Wars VI** utilizando suas avaliações para os Episódios IV e V (de <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Após o treinamento, testa-se dois usuários: um avaliou IV/V como `5` e `5`, o outro como `4.5` e `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Quais dos seguintes nomes de classes do scikit-learn são usados para implementar o classificador k-Nearest Neighbors e para escalar características ao preparar dados para k-NN?

Domine os principais algoritmos de aprendizado supervisionado e implemente-os utilizando Scikit-learn. Explore regressão linear e polinomial para previsão de preços e avance para classificação com k-NN, Regressão Logística e Árvores de Decisão. Aprenda a avaliar modelos por meio de validação cruzada, controlar overfitting com regularização e otimizar hiperparâmetros. Construa sistemas preditivos robustos e defina limites de decisão complexos para tarefas de classificação multiclasse.

Implementando k-NN

KNeighborsClassifier

Construtor:

Métodos:

Escalonamento dos dados

Construtor:

Métodos:

Exemplo