Hva er k-NN
Sveip for å vise menyen
Vi starter klassifiseringsreisen vår med den enkleste oppgaven – binær klassifisering. Anta at vi ønsker å klassifisere søtsaker som kjeks/ikke kjeks basert på ett enkelt trekk: vekten deres.
En enkel måte å forutsi klassen til en ny forekomst på, er å se på dens nærmeste nabo. I vårt eksempel må vi finne en søtsak som veier mest likt den nye forekomsten.
Dette er ideen bak k-Nearest Neighbors (k-NN) – vi ser bare på naboene. k-NN-algoritmen antar at lignende ting finnes i nærhet. Med andre ord, lignende ting er nær hverandre. k i k-NN står for antall naboer vi vurderer når vi gjør en prediksjon.
I eksempelet ovenfor vurderte vi kun 1 nabo, så det var 1-Nearest Neighbor. Men vanligvis settes k til et større tall, siden det å kun se på én nabo kan være upålitelig:
Hvis k (antall naboer) er større enn én, velges den mest vanlige klassen i nabolaget som prediksjon. Her er et eksempel på prediksjon av to nye instanser med k=3:
Som du kan se, kan endring av k føre til ulike prediksjoner.
Av og til produserer k-NN en uavgjort når flere klasser forekommer like ofte blant de nærmeste naboene. De fleste biblioteker, inkludert scikit-learn, løser uavgjort ved å velge den første klassen i sin interne rekkefølge – noe det er viktig å være oppmerksom på, siden det kan påvirke reproduserbarhet og tolkning.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår