Summary  
This chapter introduces the k-Nearest Neighbors algorithm, which predicts an instance’s class by finding its k closest neighbors in feature space and selecting the most frequent class among them.

General domain of usage  
Supervised classification tasks in machine learning.

La oss starte vårt klassifiseringseventyr med den enkleste oppgaven – **binær klassifisering**. Anta at vi ønsker å klassifisere søtsaker som kjeks/ikke kjeks basert på én **egenskap**: vekten deres.

En enkel måte å forutsi klassen til en ny forekomst på, er å se på dens **nærmeste nabo**. I vårt eksempel må vi finne en søtsak som veier mest likt den nye forekomsten.

Dette er ideen bak **k-Nearest Neighbors** (**k-NN**) – vi ser bare på naboene. 
k-NN-algoritmen antar at lignende ting finnes i **nærhet**. Med andre ord, lignende ting er nær hverandre. **k** i k-NN står for antall naboer vi vurderer når vi gjør en prediksjon.

I eksemplet ovenfor vurderte vi kun **1** nabo, så det var 1-Nærmeste Nabo. Men vanligvis settes k til et høyere tall, siden det å kun se på én nabo kan være **upålitelig**:

Hvis **k** (antall naboer) er større enn én, velges den **mest vanlige klassen** i nabolaget som prediksjon. Her er et eksempel på å predikere to nye instanser med **k=3**:

Som du kan se, kan endring av **k** føre til ulike prediksjoner.

Av og til oppstår det en **uavgjort** i k-NN når flere klasser forekommer like ofte blant de nærmeste naboene. De fleste biblioteker, inkludert scikit-learn, løser uavgjort ved å **velge den første klassen** i sin interne rekkefølge – noe som er viktig å være oppmerksom på, siden det kan påvirke reproduserbarhet og tolkning på en subtil måte.

Merk

I k-Nearest Neighbors-algoritmen, hvordan predikeres klassen til en ny forekomst når k > 1?

Behersk de sentrale klassifiseringsalgoritmene som driver moderne maskinlæring. Utforsk hvordan modeller som k-NN, logistisk regresjon, beslutningstrær og random forests gjør prediksjoner, evaluerer nøyaktigheten sin, og forstå når hver modell bør brukes. Bygg ferdigheter til å sammenligne modeller og velge den beste for dine data.

Utforsk hvordan k-nærmeste naboer-algoritmen gjør prediksjoner basert på likhet. Lær å håndtere flere egenskaper, justere parametere og bruke kryssvalidering for å forbedre nøyaktigheten.

Forstå hvordan logistisk regresjon modellerer sannsynligheter og klassifiserer utfall. Øv på implementering, tolkning av beslutningsgrenser og bruk av regularisering for å forhindre overtilpasning.

Lær hvordan beslutningstrær deler data inn i meningsfulle grupper basert på egenskapsverdier. Utforsk hvordan parametere som treets dybde og minimum antall prøver per blad påvirker modellens ytelse og generalisering.

Utforsk hvordan random forest kombinerer flere beslutningstrær for å forbedre nøyaktighet og robusthet. Forstå rollen til tilfeldighet og bruk denne ensemblemetoden på virkelige data.

Vurder modeller ved hjelp av måleparametere som nøyaktighet, presisjon, tilbakekalling og F1-score. Lær å tolke forvirringsmatriser og sammenligne flere klassifikatorer for å identifisere den best presterende modellen.

Hva er k-NN