Summary  
The chapter explains the k-Nearest Neighbors algorithm, which classifies a new instance by finding its k closest labeled neighbors in feature space and assigning the most frequent class among them.

General domain of usage  
Binary classification of sweets (cookies vs. non-cookies) based on weight.

Vi starter vores klassifikationsrejse med den simpleste opgave – **binær klassifikation**. Forestil dig, at vi vil klassificere slik som småkager/ikke småkager baseret på én **enkelt egenskab**: deres vægt.

En simpel metode til at forudsige klassen for en ny forekomst er at se på dens **nærmeste nabo**. I vores eksempel skal vi finde et stykke slik, der vejer mest lig den nye forekomst.

Det er idéen bag **k-Nearest Neighbors** (**k-NN**) – vi kigger blot på naboerne.
k-NN-algoritmen antager, at lignende ting findes i **nærhed** af hinanden. Med andre ord, lignende ting er tæt på hinanden. **k** i k-NN står for antallet af naboer, vi tager i betragtning, når vi laver en forudsigelse.

I eksemplet ovenfor betragtede vi kun **1** nabo, så det var 1-Nearest Neighbor. Men normalt sættes k til et større tal, da det kun at kigge på én nabo kan være **upålideligt**:

Hvis **k** (antallet af naboer) er større end én, vælger vi **den mest hyppige klasse** i nabolaget som forudsigelse. Her er et eksempel på forudsigelse af to nye instanser med **k=3**:

Som du kan se, kan ændring af **k** føre til forskellige forudsigelser.

Af og til giver k-NN et **uafgjort resultat**, når flere klasser optræder lige ofte blandt de nærmeste naboer. De fleste biblioteker, herunder scikit-learn, løser uafgjort ved at **vælge den første klasse** i deres interne rækkefølge – noget, der er værd at bemærke, da det kan påvirke reproducerbarhed og fortolkning på en subtil måde.

Bemærk

I k-Nearest Neighbors-algoritmen, hvordan forudsiges klassen for en ny forekomst, når k > 1?

Behersk de centrale klassifikationsalgoritmer, der driver moderne maskinlæring. Udforsk hvordan modeller som k-NN, logistisk regression, beslutningstræer og random forests foretager forudsigelser, evaluerer deres nøjagtighed, og forstå hvornår hver model bør anvendes. Opbyg færdigheder til at sammenligne modeller og vælge den bedste til dine data.

Opdag, hvordan k-nærmeste naboer-algoritmen foretager forudsigelser baseret på lighed. Lær at håndtere flere egenskaber, justere parametre og anvende krydsvalidering for at forbedre nøjagtigheden.

Forstå, hvordan logistisk regression modellerer sandsynligheder og klassificerer udfald. Øv implementering, fortolkning af beslutningsgrænser og anvendelse af regularisering for at forhindre overfitting.

Lær, hvordan beslutningstræer opdeler data i meningsfulde grupper baseret på featureværdier. Udforsk, hvordan parametre som trædybde og minimum antal prøver per blad påvirker modellens ydeevne og generalisering.

Undersøg, hvordan random forests kombinerer flere beslutningstræer for at forbedre nøjagtighed og robusthed. Forstå betydningen af tilfældighed og anvend denne ensemble-metode på virkelige data.

Evaluering af modeller ved hjælp af metrikker såsom nøjagtighed, præcision, recall og F1-score. Lær at fortolke forvekslingsmatrixer og sammenligne flere klassifikatorer for at identificere den bedst præsterende model.

Hvad er k-NN

Hvad er k-NN