Summary  
This chapter introduces the k-Nearest Neighbors classification algorithm, which predicts a new instance’s class by finding its k closest neighbors in feature space and choosing the most frequent class among them. It also demonstrates how different values of k influence prediction reliability.

General domain of usage  
Machine learning classification tasks

Aloitetaan luokittelun perusteista yksinkertaisimmalla tehtävällä – **binääriluokittelulla**. Oletetaan, että haluamme luokitella makeisia kekseiksi/ei-kekseiksi yhden **ominaisuuden** perusteella: niiden painon.

Yksinkertainen tapa ennustaa uuden havainnon luokka on tarkastella sen **lähintä naapuria**. Esimerkissämme meidän täytyy löytää makeinen, jonka paino on lähimpänä uutta havaintoa.

Tämä on **k-lähimmän naapurin** (**k-NN**) perusajatus – tarkastellaan vain naapureita.
k-NN-algoritmi olettaa, että samankaltaiset asiat sijaitsevat **lähellä toisiaan**. Toisin sanoen, samankaltaiset asiat ovat lähellä toisiaan. **k** k-NN:ssä tarkoittaa niiden naapureiden määrää, jotka otetaan huomioon ennustettaessa.

Yllä olevassa esimerkissä tarkasteltiin vain **1** naapuria, joten kyseessä oli 1-lähimmän naapurin menetelmä. Yleensä k asetetaan kuitenkin suuremmaksi, sillä pelkästään yhden naapurin huomioiminen voi olla **epäluotettavaa**:

Jos **k** (naapureiden määrä) on suurempi kuin yksi, valitaan ennusteeksi **yleisin luokka** naapureiden joukosta. Tässä esimerkki kahden uuden tapauksen ennustamisesta, kun **k=3**:

Kuten huomaat, **k**:n muuttaminen voi johtaa erilaisiin ennusteisiin.

Ajoittain k-NN tuottaa **tasapelin**, kun useita luokkia esiintyy yhtä usein lähimpien naapureiden joukossa. Useimmat kirjastot, mukaan lukien scikit-learn, ratkaisevat tasapelin **valitsemalla ensimmäisen luokan** sisäisessä järjestyksessään – tämä on hyvä pitää mielessä, sillä se voi hienovaraisesti vaikuttaa toistettavuuteen ja tulkintaan.

Huomio

Kuinka k-Nearest Neighbors -algoritmi ennustaa uuden tapauksen luokan, kun k > 1?

Hallitse ohjatun oppimisen keskeiset algoritmit ja toteuta ne Scikit-learn-kirjastolla. Tutustu lineaariseen ja polynomiseen regressioon hintojen ennustamisessa sekä siirry luokitteluun käyttäen k-NN:ää, logistista regressiota ja päätöspuita. Opiskele mallien arviointia ristiinvalidoinnilla, hallitse ylisovittamista regularisoinnilla ja optimoi hyperparametreja. Rakenna kestäviä ennustavia järjestelmiä ja määrittele monimutkaisia päätösrajoja moniluokkaluokittelutehtäviin.

Mikä on k-NN