Summary  
The chapter explains the k-Nearest Neighbors algorithm, which classifies a new instance by finding its k closest labeled neighbors in feature space and assigning the most frequent class among them.

General domain of usage  
Binary classification of sweets (cookies vs. non-cookies) based on weight.

Commençons notre exploration de la classification par la tâche la plus simple : **classification binaire**. Supposons que l’on souhaite classer des sucreries en biscuits/non biscuits en se basant sur une **seule caractéristique** : leur poids.

Une méthode simple pour prédire la classe d’une nouvelle instance consiste à observer son **voisin le plus proche**. Dans notre exemple, il s’agit de trouver la sucrerie dont le poids est le plus similaire à celui de la nouvelle instance.

C'est le principe du **k-plus proches voisins** (**k-NN**) : il suffit d'observer les voisins.
L'algorithme k-NN suppose que des éléments similaires existent à **proximité** les uns des autres. Autrement dit, des éléments similaires sont proches. Le **k** dans k-NN représente le nombre de voisins pris en compte lors de la prédiction.

Dans l'exemple ci-dessus, nous avons pris en compte seulement **1** voisin, il s'agissait donc du plus proche voisin (1-Nearest Neighbor). Mais en général, k est fixé à une valeur plus grande, car se baser sur un seul voisin peut être **peu fiable** :

Si **k** (nombre de voisins) est supérieur à un, la **classe la plus fréquente** dans le voisinage est choisie comme prédiction. Voici un exemple de prédiction de deux nouvelles instances avec **k=3** :

Comme vous pouvez le constater, modifier la valeur de **k** peut entraîner des prédictions différentes.

Parfois, k-NN produit une **égalité** lorsque plusieurs classes apparaissent avec la même fréquence parmi les voisins les plus proches. La plupart des bibliothèques, y compris scikit-learn, résolvent les égalités en **choisissant la première classe** selon leur ordre interne — un point à garder à l'esprit, car cela peut influencer subtilement la reproductibilité et l'interprétation.

Remarque

Dans l'algorithme des k plus proches voisins, comment la classe d'une nouvelle instance est-elle prédite lorsque k > 1 ?

Maîtrisez les principaux algorithmes de classification qui alimentent l'apprentissage automatique moderne. Découvrez comment des modèles tels que k-NN, la régression logistique, les arbres de décision et les forêts aléatoires effectuent des prédictions, évaluez leur précision et comprenez quand utiliser chacun d'eux. Développez les compétences nécessaires pour comparer les modèles et choisir le plus adapté à vos données.

Découvrez comment l'algorithme des k plus proches voisins effectue des prédictions basées sur la similarité. Apprenez à gérer plusieurs caractéristiques, à ajuster les paramètres et à appliquer la validation croisée pour améliorer la précision.

Comprendre comment la régression logistique modélise les probabilités et classe les résultats. S'exercer à l'implémenter, à interpréter les frontières de décision et à appliquer la régularisation pour éviter le surapprentissage.

Découvrez comment les arbres de décision divisent les données en groupes significatifs selon les valeurs des caractéristiques. Explorez l'influence de paramètres tels que la profondeur de l'arbre et le nombre minimal d'échantillons par feuille sur la performance et la généralisation du modèle.

Découvrez comment les forêts aléatoires combinent plusieurs arbres de décision pour améliorer la précision et la robustesse. Comprenez le rôle de l'aléatoire et appliquez cette méthode d'ensemble à des données réelles.

Évaluation des modèles à l'aide de métriques telles que l'exactitude, la précision, le rappel et le score F1. Interprétation des matrices de confusion et comparaison de plusieurs classificateurs afin d'identifier le modèle le plus performant.

Qu'est-ce que le k-NN