Summary  
Explains how to apply the k-Nearest Neighbors algorithm with multiple numerical features and demonstrates the need for feature scaling (using StandardScaler) to ensure each feature contributes equally to distance calculations.

General domain of usage  
Machine learning classification tasks

Je begrijpt nu hoe **k-NN** werkt met één enkele feature. Laten we doorgaan naar een iets complexer voorbeeld dat twee features gebruikt: **gewicht** en **breedte**.

In dit geval moeten we buren vinden op basis van **zowel breedte als gewicht**. Maar daar zit een klein probleem. Laten we de snoepjes plotten en zien wat er misgaat:

Je ziet dat het gewicht varieert van **12** tot **64**, terwijl de breedte slechts tussen **5** en **12** ligt. Omdat het bereik van de breedte veel kleiner is, lijken de snoepjes bijna verticaal uitgelijnd. Als we nu de afstanden berekenen, zullen deze voornamelijk de **verschillen in gewicht** weergeven, alsof we de breedte nooit hebben meegenomen.

Er is echter een oplossing - **het schalen van de data**.

Nu staan zowel gewicht als breedte op dezelfde schaal en zijn ze **gecentreerd rond nul**. Dit kan worden bereikt met de `StandardScaler`-klasse uit `sklearn`. `StandardScaler` trekt gewoon het **gemiddelde van de steekproef** af en deelt het resultaat vervolgens door de **standaardafwijking van de steekproef**:
$$
X_{scaled} = \frac{X - \bar x}{s}
$$


`StandardScaler` centreert de gegevens rond **nul**. Hoewel centreren **niet verplicht** is voor k-NN en tot verwarring kan leiden, zoals "hoe kan gewicht negatief zijn", is het simpelweg een manier om gegevens aan een computer te presenteren. Sommige modellen vereisen **centrering**, dus het is raadzaam om standaard `StandardScaler` te gebruiken voor schalen.

In feite moet u de gegevens **altijd** schalen voordat u k-Nearest Neighbors gebruikt. Met geschaalde gegevens kunnen we nu de buren vinden:

In het geval van twee kenmerken definieert k-NN een **cirkelvormige buurt** die het gewenste aantal buren bevat. Met drie kenmerken wordt dit een **bol**. In hogere dimensies krijgt de buurt een complexere vorm die niet te visualiseren is, maar de **onderliggende berekeningen blijven hetzelfde**.

Beheers de kernclassificatie-algoritmen die moderne machine learning aandrijven. Ontdek hoe modellen zoals k-NN, logistische regressie, beslissingsbomen en random forests voorspellingen doen, hun nauwkeurigheid evalueren en begrijp wanneer elk model te gebruiken. Ontwikkel vaardigheden om modellen te vergelijken en de beste keuze te maken voor uw data.

Ontdek hoe het k-nearest neighbors-algoritme voorspellingen doet op basis van gelijkenis. Leer omgaan met meerdere kenmerken, parameters afstemmen en kruisvalidatie toepassen om de nauwkeurigheid te verbeteren.

Inzicht in hoe logistische regressie waarschijnlijkheden modelleert en uitkomsten classificeert. Oefenen met het implementeren ervan, het interpreteren van beslissingsgrenzen en het toepassen van regularisatie om overfitting te voorkomen.

Leer hoe beslisbomen gegevens opdelen in betekenisvolle groepen op basis van kenmerkwaarden. Ontdek hoe parameters zoals boomdiepte en het minimum aantal monsters per blad de modelprestaties en generalisatie beïnvloeden.

Ontdek hoe random forests meerdere beslissingsbomen combineren om de nauwkeurigheid en robuustheid te verbeteren. Begrijp de rol van willekeur en pas deze ensemblemethode toe op real-world data.

Modellen evalueren met behulp van metriek zoals nauwkeurigheid, precisie, recall en F1-score. Interpretatie van verwarringsmatrices en vergelijking van meerdere classificatie-algoritmen om het best presterende model te identificeren.

K-NN met Meerdere Kenmerken