Summary  
This chapter covers evaluation and comparison of classification algorithms by examining their decision boundaries, computational complexity, and preprocessing requirements, illustrating how to apply the No Free Lunch theorem for informed model selection.

General domain of usage  
Supervised machine learning

Yhteenvetona olet oppinut neljä algoritmia: k-NN, logistinen regressio, päätöspuu ja satunnaismetsä. Jokaisella on omat etunsa ja haittansa, jotka käytiin läpi kunkin algoritmin omassa osiossa.

Seuraava visualisointi havainnollistaa, miten kukin algoritmi suoriutuu erilaisilla synteettisillä aineistoilla:

Tässä visualisoinnissa värin tummuus ilmaisee mallin ennusteen varmuutta.  

Huomaat, että jokaisessa aineistossa **eri malli suoriutuu parhaiten**. On vaikea tietää etukäteen, mikä malli toimii parhaiten, joten paras lähestymistapa on kokeilla useita vaihtoehtoja. Tämä on **No Free Lunch -teoreeman** perusajatus.

Joissain tilanteissa algoritmien tuntemus auttaa kuitenkin **rajaamaan joitakin malleja pois etukäteen**, jos ne eivät sovellu tehtävään.

Esimerkiksi **logistinen regressio** (ilman `PolynomialFeatures`-ominaisuutta) muodostaa lineaarisen päätösrajan. Katsomalla toisen aineiston monimutkaisuutta kuvassa voidaan jo etukäteen päätellä, ettei se toimi hyvin.

Toisena esimerkkinä, jos tehtävä vaatii **erittäin nopeaa ennustamista** — kuten reaaliaikaiset ennusteet sovelluksessa — k-NN on **huono valinta**. Sama pätee satunnaismetsään, jossa on paljon päätöspuita. Voit vähentää puiden määrää `n_estimators`-parametrilla nopeuttaaksesi mallia, mutta tämä voi heikentää **suorituskykyä**.

Seuraava taulukko auttaa ymmärtämään, millaista esikäsittelyä kukin malli vaatii ennen koulutusta ja miten mallin suorituskyky muuttuu **ominaisuuksien tai havaintojen määrän kasvaessa**:

- `n` – havaintojen (näytteiden) määrä;  
- `m` – ominaisuuksien määrä;  
- `t` – puiden määrä satunnaismetsässä;  
- `k` – naapureiden määrä k-NN:ssä;  
- `*` Skaalausta ei tarvita, jos logistisessa regressiossa `penalty=None`;  
- `**` PolynomialFeatures lisää ominaisuuksia, joten tehokas ominaisuuksien määrä `m` kasvaa.

Mikä malli käyttää useita päätöspuita tehdäkseen ennusteen?

Hallitse keskeiset luokittelualgoritmit, jotka ovat modernin koneoppimisen ytimessä. Tutustu siihen, miten mallit kuten k-NN, logistinen regressio, päätöspuut ja satunnaismetsät tekevät ennusteita, arvioi niiden tarkkuutta ja ymmärrä, milloin kutakin kannattaa käyttää. Kehitä taitoja vertailla malleja ja valita paras vaihtoehto aineistosi perusteella.

Opi, miten k-lähimmän naapurin algoritmi tekee ennusteita samankaltaisuuden perusteella. Sisältää useiden piirteiden käsittelyn, parametrien säätämisen ja ristiinvalidoinnin hyödyntämisen tarkkuuden parantamiseksi.

Ymmärrä, miten logistinen regressio mallintaa todennäköisyyksiä ja luokittelee tuloksia. Harjoittele sen toteuttamista, päätösrajojen tulkintaa sekä regularisoinnin soveltamista ylisovittamisen estämiseksi.

Opi, kuinka päätöspuut jakavat dataa merkityksellisiin ryhmiin ominaisuuksien arvojen perusteella. Tutustu siihen, miten parametrit, kuten puun syvyys ja lehden miniminäytteiden määrä, vaikuttavat mallin suorituskykyyn ja yleistettävyyteen.

Tutustu siihen, miten satunnaismetsät yhdistävät useita päätöspuita parantaakseen tarkkuutta ja vankkuutta. Ymmärrä satunnaisuuden rooli ja sovella tätä yhdistelmämallia reaalimaailman dataan.

Mallien arviointi mittareilla, kuten tarkkuus, precision, recall ja F1-pisteet. Sekamatriksien tulkinta ja useiden luokittelijoiden vertailu parhaan mallin tunnistamiseksi.