Summary  
This chapter explains how to implement a k-Nearest Neighbors classifier in Python using scikit-learn, scale features only on the training set with StandardScaler, fit the model, and predict new instances.

General domain of usage  
Recommendation systems

## KNeighborsClassifier
k-近傍法（k-Nearest Neighbors）の実装は非常に簡単です。`KNeighborsClassifier` クラスをインポートして使用するだけです。

クラスをインポートし、次のようにクラスオブジェクトを作成します:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
その後、`.fit()` メソッドを使ってトレーニングデータを与えます:
```python
knn.fit(X_scaled, y)
```
これで完了です。新しい値の予測が可能になります。
```python
y_pred = knn.predict(X_new_scaled)
```

## データのスケーリング

ただし、データは**必ずスケーリング**する必要があります。この目的には `StandardScaler` が一般的に使用されます。

$$\bar x$$ および $$s$$ は、**トレーニングセットのみ**で `.fit()` または `.fit_transform()` を使用して計算。
その後、`.transform()` を **テストセット** に適用し、両方のセットが同じ方法でスケーリングされるようにする：

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

トレーニングとテストで異なるスケーリング値を使用すると、予測精度が低下。

## 例

エピソード IV および V の評価を用いて、ある人物が **スター・ウォーズ VI** を楽しむかどうかを予測（データ出典：<a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>）。
学習後、2人のユーザーをテスト：1人は IV/V を `5` と `5`、もう1人は `4.5` と `4` と評価。

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

scikit-learnでk-最近傍法（k-NN）分類器を実装し、k-NNのためにデータを準備する際に特徴量をスケーリングするために使用されるクラス名はどれですか？

Pythonを使用したカテゴリカルな結果を予測するための分類手法を紹介します。分類モデルの構築、トレーニング、評価、決定境界の解釈、一般的なアルゴリズムの実世界データセットへの適用に焦点を当てます。


K-NNの実装

KNeighborsClassifier

データのスケーリング

例