Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on luokittelu | K-NN-luokitin
Luokittelu Pythonilla

bookMikä on luokittelu

Luokittelu on ohjatun oppimisen tehtävä. Sen tavoitteena on ennustaa, mihin luokkaan havainto kuuluu annetun ominaisuusjoukon (piirteet) perusteella. Tietokoneelle on annettava useita nimettyjä esimerkkejä datasta (opetusjoukko), jotta se voi oppia ennustamaan uuden havainnon luokan.

Luokittelun ja regression ero on siinä, että regressio ennustaa jatkuvan numeerisen arvon, esimerkiksi hinnan. Se voi olla mikä tahansa reaaliluku (hinnan tapauksessa vain positiivinen).

Sen sijaan luokittelu ennustaa kategorisen arvon, esimerkiksi makeisen tyypin. Arvojen joukko on rajallinen, ja malli pyrkii luokittelemaan jokaisen havainnon johonkin näistä kategorioista.

Ongelman muotoilun perusteella luokittelusta on useita tyyppejä:

  • Binaariluokittelu: binaariluokittelussa kohde kuuluu yhteen kahdesta mahdollisesta lopputuloksesta. Esimerkiksi sähköposti: roskaposti/ei roskaposti, makeinen: keksi/ei keksi;

  • Moniluokkainen luokittelu: moniluokkaisessa luokittelussa kohteella on kolme tai useampia mahdollisia lopputuloksia. Esimerkiksi sähköposti: roskaposti/tärkeä/mainos/muu, makeinen: keksi/vaahtokarkki/karkki;

  • Moniluokkainen monimerkintäluokittelu: monimerkintäluokittelussa jokainen havainto voi kuulua useaan luokkaan samanaikaisesti. Esimerkiksi elokuva voidaan luokitella sekä toiminta- että komediaelokuvaksi, tai sähköposti voidaan merkitä sekä tärkeäksi että työhön liittyväksi.

Useimmissa ML-malleissa kohde täytyy koodata numeroksi. Binaariluokittelussa lopputulokset koodataan yleensä 0/1 (esim. 1 - keksi, 0 - ei keksi). Moniluokkaisessa luokittelussa lopputulokset koodataan yleensä 0, 1, 2, ... (esim. 0 - karkki, 1 - keksi, 2 - vaahtokarkki).

Monet eri mallit voivat suorittaa luokittelua. Esimerkkejä ovat:

  • k-lähimmän naapurin menetelmä;
  • logistinen regressio;
  • päätöspuu;
  • satunnaismetsä.

Onneksi kaikki nämä on toteutettu scikit-learn-kirjastossa ja ovat helppokäyttöisiä.

Note
Huomio

Mikään koneoppimismalli ei ole toista parempi. Parhaiten suoriutuva malli riippuu aina kyseisestä tehtävästä.

question mark

Mikä on luokittelun päätavoite koneoppimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4.17

bookMikä on luokittelu

Pyyhkäise näyttääksesi valikon

Luokittelu on ohjatun oppimisen tehtävä. Sen tavoitteena on ennustaa, mihin luokkaan havainto kuuluu annetun ominaisuusjoukon (piirteet) perusteella. Tietokoneelle on annettava useita nimettyjä esimerkkejä datasta (opetusjoukko), jotta se voi oppia ennustamaan uuden havainnon luokan.

Luokittelun ja regression ero on siinä, että regressio ennustaa jatkuvan numeerisen arvon, esimerkiksi hinnan. Se voi olla mikä tahansa reaaliluku (hinnan tapauksessa vain positiivinen).

Sen sijaan luokittelu ennustaa kategorisen arvon, esimerkiksi makeisen tyypin. Arvojen joukko on rajallinen, ja malli pyrkii luokittelemaan jokaisen havainnon johonkin näistä kategorioista.

Ongelman muotoilun perusteella luokittelusta on useita tyyppejä:

  • Binaariluokittelu: binaariluokittelussa kohde kuuluu yhteen kahdesta mahdollisesta lopputuloksesta. Esimerkiksi sähköposti: roskaposti/ei roskaposti, makeinen: keksi/ei keksi;

  • Moniluokkainen luokittelu: moniluokkaisessa luokittelussa kohteella on kolme tai useampia mahdollisia lopputuloksia. Esimerkiksi sähköposti: roskaposti/tärkeä/mainos/muu, makeinen: keksi/vaahtokarkki/karkki;

  • Moniluokkainen monimerkintäluokittelu: monimerkintäluokittelussa jokainen havainto voi kuulua useaan luokkaan samanaikaisesti. Esimerkiksi elokuva voidaan luokitella sekä toiminta- että komediaelokuvaksi, tai sähköposti voidaan merkitä sekä tärkeäksi että työhön liittyväksi.

Useimmissa ML-malleissa kohde täytyy koodata numeroksi. Binaariluokittelussa lopputulokset koodataan yleensä 0/1 (esim. 1 - keksi, 0 - ei keksi). Moniluokkaisessa luokittelussa lopputulokset koodataan yleensä 0, 1, 2, ... (esim. 0 - karkki, 1 - keksi, 2 - vaahtokarkki).

Monet eri mallit voivat suorittaa luokittelua. Esimerkkejä ovat:

  • k-lähimmän naapurin menetelmä;
  • logistinen regressio;
  • päätöspuu;
  • satunnaismetsä.

Onneksi kaikki nämä on toteutettu scikit-learn-kirjastossa ja ovat helppokäyttöisiä.

Note
Huomio

Mikään koneoppimismalli ei ole toista parempi. Parhaiten suoriutuva malli riippuu aina kyseisestä tehtävästä.

question mark

Mikä on luokittelun päätavoite koneoppimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 1
some-alt