Vad är k-NN
Vi börjar vår klassificeringsresa med den enklaste uppgiften – binär klassificering. Antag att vi vill klassificera sötsaker som kakor/inte kakor baserat på en enda egenskap: deras vikt.
Ett enkelt sätt att förutsäga klassen för en ny instans är att titta på dess närmaste granne. I vårt exempel måste vi hitta en sötsak som väger mest likt den nya instansen.
Detta är idén bakom k-Nearest Neighbors (k-NN) – vi tittar bara på grannarna. Algoritmen k-NN antar att liknande saker finns i nära närhet. Med andra ord, liknande saker är nära varandra. k i k-NN står för antalet grannar vi tar hänsyn till vid en prediktion.
I exemplet ovan betraktade vi endast 1 granne, så det var 1-närmsta granne. Men vanligtvis sätts k till ett större tal, eftersom det kan vara opålitligt att endast titta på en granne:
Om k (antal grannar) är större än ett, väljs den mest frekventa klassen i grannskapet som en förutsägelse. Här är ett exempel på att förutsäga två nya instanser med k=3:
Som du kan se kan en ändring av k leda till olika förutsägelser.
Ibland uppstår en oavgjord situation i k-NN när flera klasser förekommer lika ofta bland de närmaste grannarna. De flesta bibliotek, inklusive scikit-learn, löser oavgjorda situationer genom att välja den första klassen i sin interna ordning – något att tänka på, eftersom det kan påverka reproducerbarhet och tolkning på ett subtilt sätt.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4.17
Vad är k-NN
Svep för att visa menyn
Vi börjar vår klassificeringsresa med den enklaste uppgiften – binär klassificering. Antag att vi vill klassificera sötsaker som kakor/inte kakor baserat på en enda egenskap: deras vikt.
Ett enkelt sätt att förutsäga klassen för en ny instans är att titta på dess närmaste granne. I vårt exempel måste vi hitta en sötsak som väger mest likt den nya instansen.
Detta är idén bakom k-Nearest Neighbors (k-NN) – vi tittar bara på grannarna. Algoritmen k-NN antar att liknande saker finns i nära närhet. Med andra ord, liknande saker är nära varandra. k i k-NN står för antalet grannar vi tar hänsyn till vid en prediktion.
I exemplet ovan betraktade vi endast 1 granne, så det var 1-närmsta granne. Men vanligtvis sätts k till ett större tal, eftersom det kan vara opålitligt att endast titta på en granne:
Om k (antal grannar) är större än ett, väljs den mest frekventa klassen i grannskapet som en förutsägelse. Här är ett exempel på att förutsäga två nya instanser med k=3:
Som du kan se kan en ändring av k leda till olika förutsägelser.
Ibland uppstår en oavgjord situation i k-NN när flera klasser förekommer lika ofta bland de närmaste grannarna. De flesta bibliotek, inklusive scikit-learn, löser oavgjorda situationer genom att välja den första klassen i sin interna ordning – något att tänka på, eftersom det kan påverka reproducerbarhet och tolkning på ett subtilt sätt.
Tack för dina kommentarer!