Hvad er k-NN
Lad os begynde vores klassifikationsrejse med den simpleste opgave – binær klassifikation. Antag, at vi ønsker at klassificere slik som småkager/ikke småkager baseret på en enkelt egenskab: deres vægt.
En simpel metode til at forudsige klassen for en ny instans er at se på dens nærmeste nabo. I vores eksempel skal vi finde et stykke slik, der vejer mest lig den nye instans.
Det er idéen bag k-Nearest Neighbors (k-NN) – vi kigger blot på naboerne. k-NN-algoritmen antager, at lignende ting findes i nærhed. Med andre ord er lignende ting tæt på hinanden. k i k-NN står for antallet af naboer, vi tager i betragtning, når vi laver en forudsigelse.
I eksemplet ovenfor betragtede vi kun 1 nabo, så det var 1-Nærmeste Nabo. Men normalt sættes k til et større tal, da det kun at se på én nabo kan være upålideligt:
Hvis k (antal naboer) er større end én, vælger vi den hyppigste klasse i nabolaget som en forudsigelse. Her er et eksempel på at forudsige to nye instanser med k=3:
Som du kan se, kan ændring af k føre til forskellige forudsigelser.
Lejlighedsvis giver k-NN et uafgjort resultat, når flere klasser forekommer lige ofte blandt de nærmeste naboer. De fleste biblioteker, herunder scikit-learn, løser uafgjort ved at vælge den første klasse i deres interne rækkefølge – noget der bør bemærkes, da det kan påvirke reproducerbarhed og fortolkning på en subtil måde.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 4.17
Hvad er k-NN
Stryg for at vise menuen
Lad os begynde vores klassifikationsrejse med den simpleste opgave – binær klassifikation. Antag, at vi ønsker at klassificere slik som småkager/ikke småkager baseret på en enkelt egenskab: deres vægt.
En simpel metode til at forudsige klassen for en ny instans er at se på dens nærmeste nabo. I vores eksempel skal vi finde et stykke slik, der vejer mest lig den nye instans.
Det er idéen bag k-Nearest Neighbors (k-NN) – vi kigger blot på naboerne. k-NN-algoritmen antager, at lignende ting findes i nærhed. Med andre ord er lignende ting tæt på hinanden. k i k-NN står for antallet af naboer, vi tager i betragtning, når vi laver en forudsigelse.
I eksemplet ovenfor betragtede vi kun 1 nabo, så det var 1-Nærmeste Nabo. Men normalt sættes k til et større tal, da det kun at se på én nabo kan være upålideligt:
Hvis k (antal naboer) er større end én, vælger vi den hyppigste klasse i nabolaget som en forudsigelse. Her er et eksempel på at forudsige to nye instanser med k=3:
Som du kan se, kan ændring af k føre til forskellige forudsigelser.
Lejlighedsvis giver k-NN et uafgjort resultat, når flere klasser forekommer lige ofte blandt de nærmeste naboer. De fleste biblioteker, herunder scikit-learn, løser uafgjort ved at vælge den første klasse i deres interne rækkefølge – noget der bør bemærkes, da det kan påvirke reproducerbarhed og fortolkning på en subtil måde.
Tak for dine kommentarer!