Summary  
This chapter covers the k-Nearest Neighbors classification concept, where a new instance’s class is predicted by finding its k closest neighbors in feature space and using majority voting.

General domain of usage  
Binary classification in supervised machine learning.

最も基本的なタスクである**二値分類**から分類の学習を始めます。例えば、**1つの特徴量**（重さ）に基づいて、お菓子がクッキーかクッキーでないかを分類する場合を考えます。

新しいインスタンスのクラスを予測する簡単な方法は、その**最も近い近傍**を見ることです。この例では、新しいインスタンスと重さが最も近いお菓子を探します。

これが**k-近傍法**（**k-NN**）の基本的な考え方です。近傍だけを見ます。
k-NNアルゴリズムは、類似したものは**近い場所**に存在するという前提に基づいています。つまり、似ているもの同士は互いに近くにあります。k-NNの**k**は、予測時に考慮する近傍の数を表します。

上記の例では、**1** つの近傍のみを考慮したため、1-Nearest Neighbor（1最近傍法）となっています。しかし、通常は k をより大きな値に設定します。なぜなら、1つの近傍だけを見るのは**信頼性が低い**ためです。

**k**（近傍数）が1より大きい場合、近傍内で**最も頻度の高いクラス**を予測値として選択します。以下は、**k=3** で2つの新しいインスタンスを予測する例です。

ご覧の通り、**k** の値を変更すると異なる予測結果になる場合があります。

時折、k-NNでは最も近い近傍の中で複数のクラスが同数で現れる場合、**同点**が発生します。scikit-learnを含むほとんどのライブラリでは、内部の順序で**最初のクラスを選択**することで同点を解消します。これは再現性や解釈に微妙な影響を与える可能性があるため、注意が必要です。

注意

k-近傍法アルゴリズムにおいて、k > 1 の場合、新しいインスタンスのクラスはどのように予測されますか？

Pythonを使用したカテゴリカルな結果を予測するための分類手法を紹介します。分類モデルの構築、トレーニング、評価、決定境界の解釈、一般的なアルゴリズムの実世界データセットへの適用に焦点を当てます。


k-NNとは何か