Mikä on luokittelu
Luokittelu on ohjatun oppimisen tehtävä. Sen tavoitteena on ennustaa, mihin luokkaan havainto kuuluu annetun ominaisuusjoukon (piirteet) perusteella. Tietokoneelle on annettava useita nimettyjä esimerkkejä datasta (opetusjoukko), jotta se voi oppia ennustamaan uuden havainnon luokan.
Luokittelun ja regression ero on siinä, että regressio ennustaa jatkuvan numeerisen arvon, esimerkiksi hinnan. Se voi olla mikä tahansa reaaliluku (hinnan tapauksessa vain positiivinen).
Sen sijaan luokittelu ennustaa kategorisen arvon, esimerkiksi makeisen tyypin. Arvojen joukko on rajallinen, ja malli pyrkii luokittelemaan jokaisen havainnon johonkin näistä kategorioista.
Ongelman muotoilun perusteella luokittelusta on useita tyyppejä:
-
Binaariluokittelu: binaariluokittelussa kohde kuuluu yhteen kahdesta mahdollisesta lopputuloksesta. Esimerkiksi sähköposti: roskaposti/ei roskaposti, makeinen: keksi/ei keksi;
-
Moniluokkainen luokittelu: moniluokkaisessa luokittelussa kohteella on kolme tai useampia mahdollisia lopputuloksia. Esimerkiksi sähköposti: roskaposti/tärkeä/mainos/muu, makeinen: keksi/vaahtokarkki/karkki;
-
Moniluokkainen monimerkintäluokittelu: monimerkintäluokittelussa jokainen havainto voi kuulua useaan luokkaan samanaikaisesti. Esimerkiksi elokuva voidaan luokitella sekä toiminta- että komediaelokuvaksi, tai sähköposti voidaan merkitä sekä tärkeäksi että työhön liittyväksi.
Useimmissa ML-malleissa kohde täytyy koodata numeroksi. Binaariluokittelussa lopputulokset koodataan yleensä 0/1 (esim. 1 - keksi, 0 - ei keksi). Moniluokkaisessa luokittelussa lopputulokset koodataan yleensä 0, 1, 2, ... (esim. 0 - karkki, 1 - keksi, 2 - vaahtokarkki).
Monet eri mallit voivat suorittaa luokittelua. Esimerkkejä ovat:
- k-lähimmän naapurin menetelmä;
- logistinen regressio;
- päätöspuu;
- satunnaismetsä.
Onneksi kaikki nämä on toteutettu scikit-learn-kirjastossa ja ovat helppokäyttöisiä.
Mikään koneoppimismalli ei ole toista parempi. Parhaiten suoriutuva malli riippuu aina kyseisestä tehtävästä.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 4.17
Mikä on luokittelu
Pyyhkäise näyttääksesi valikon
Luokittelu on ohjatun oppimisen tehtävä. Sen tavoitteena on ennustaa, mihin luokkaan havainto kuuluu annetun ominaisuusjoukon (piirteet) perusteella. Tietokoneelle on annettava useita nimettyjä esimerkkejä datasta (opetusjoukko), jotta se voi oppia ennustamaan uuden havainnon luokan.
Luokittelun ja regression ero on siinä, että regressio ennustaa jatkuvan numeerisen arvon, esimerkiksi hinnan. Se voi olla mikä tahansa reaaliluku (hinnan tapauksessa vain positiivinen).
Sen sijaan luokittelu ennustaa kategorisen arvon, esimerkiksi makeisen tyypin. Arvojen joukko on rajallinen, ja malli pyrkii luokittelemaan jokaisen havainnon johonkin näistä kategorioista.
Ongelman muotoilun perusteella luokittelusta on useita tyyppejä:
-
Binaariluokittelu: binaariluokittelussa kohde kuuluu yhteen kahdesta mahdollisesta lopputuloksesta. Esimerkiksi sähköposti: roskaposti/ei roskaposti, makeinen: keksi/ei keksi;
-
Moniluokkainen luokittelu: moniluokkaisessa luokittelussa kohteella on kolme tai useampia mahdollisia lopputuloksia. Esimerkiksi sähköposti: roskaposti/tärkeä/mainos/muu, makeinen: keksi/vaahtokarkki/karkki;
-
Moniluokkainen monimerkintäluokittelu: monimerkintäluokittelussa jokainen havainto voi kuulua useaan luokkaan samanaikaisesti. Esimerkiksi elokuva voidaan luokitella sekä toiminta- että komediaelokuvaksi, tai sähköposti voidaan merkitä sekä tärkeäksi että työhön liittyväksi.
Useimmissa ML-malleissa kohde täytyy koodata numeroksi. Binaariluokittelussa lopputulokset koodataan yleensä 0/1 (esim. 1 - keksi, 0 - ei keksi). Moniluokkaisessa luokittelussa lopputulokset koodataan yleensä 0, 1, 2, ... (esim. 0 - karkki, 1 - keksi, 2 - vaahtokarkki).
Monet eri mallit voivat suorittaa luokittelua. Esimerkkejä ovat:
- k-lähimmän naapurin menetelmä;
- logistinen regressio;
- päätöspuu;
- satunnaismetsä.
Onneksi kaikki nämä on toteutettu scikit-learn-kirjastossa ja ovat helppokäyttöisiä.
Mikään koneoppimismalli ei ole toista parempi. Parhaiten suoriutuva malli riippuu aina kyseisestä tehtävästä.
Kiitos palautteestasi!