Solmujen Jakaminen
Pyyhkäise näyttääksesi valikon
Koulutuksen aikana on löydettävä paras jako jokaisessa päätössolmussa. Kun jaamme datan kahteen solmuun, tavoitteena on, että eri luokat sijoittuvat eri solmuihin.
- Paras mahdollinen tilanne: kaikki solmun datapisteet kuuluvat samaan luokkaan;
- Huonoin mahdollinen tilanne: jokaisessa luokassa on yhtä monta datapistettä.
Gini-epäpuhtaus
Jakamisen laatua voidaan mitata Gini-epäpuhtaudella. Se on todennäköisyys, että jos satunnaisesti valitaan kaksi pistettä solmusta (palauttaen), ne kuuluvat eri luokkiin. Mitä pienempi tämä todennäköisyys (epäpuhtaus) on, sitä parempi jako.
Gini-epäpuhtauden voi laskea binääriluokittelussa seuraavalla kaavalla:
gini=1−p02−p12=1−(mm0)2−(mm1)2Missä
- mi – luokan i havaintojen määrä solmussa;
- m – havaintojen määrä solmussa;
- pi=mmi – todennäköisyys valita luokka i.
Ja moniluokkaluokittelussa kaava on:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Missä
- C – luokkien määrä.
Voimme mitata jaon laatua laskemalla Gini-arvojen painotetun summan molemmille solmuille, jotka syntyvät jaosta. Tätä arvoa halutaan minimoida.
Päätössolmun jakamiseksi täytyy löytää ominaisuus, jonka perusteella jaetaan, sekä kynnysarvo:
Päätössolmussa algoritmi etsii ahneesti parhaan kynnysarvon jokaiselle piirteelle. Tämän jälkeen se valitsee jaon, jolla on alin Gini-epäpuhtaus kaikista piirteistä (tasatilanteessa valinta tehdään satunnaisesti).
Entropia
Entropia on toinen epäpuhtauden mittari. Binäärisessä luokitteluongelmassa solmun entropia H lasketaan kaavalla:
H(p)=−plog2(p)−(1−p)log2(1−p)missä:
- p on positiivisten esimerkkien osuus (luokka 1);
- 1−p on negatiivisten esimerkkien osuus (luokka 0).
Moniluokkaluokittelussa solmun entropia H lasketaan kaavalla:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)missä:
- k on luokkien määrä;
- pi on solmussa luokkaan i kuuluvien esimerkkien osuus.
Samoin kuin Gini-epäpuhtauden kohdalla, voimme mitata jaon laatua laskemalla lasten solmujen entropia-arvojen painotetun summan jaosta saaduille solmuille. Tätä arvoa halutaan minimoida jotta informaation määrä kasvaisi mahdollisimman paljon.
Entropia on maksimissaan kun kaikki luokat ovat yhtä edustettuina. Se on minimissään (0) kun kaikki esimerkit kuuluvat yhteen luokkaan (puhdas solmu).
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme