Solmujen Jakaminen
Koulutuksen aikana on löydettävä paras jako jokaisessa päätössolmussa. Kun jaamme datan kahteen solmuun, tavoitteena on, että eri luokat sijoittuvat eri solmuihin.
- Paras mahdollinen tilanne: kaikki solmun tietopisteet kuuluvat samaan luokkaan;
- Heikoin mahdollinen tilanne: jokaisessa luokassa on yhtä monta tietopistettä.
Gini-epäpuhtaus
Jakamisen laadun mittaamiseen voidaan laskea Gini-epäpuhtaus. Se on todennäköisyys, että jos satunnaisesti valitaan kaksi pistettä samasta solmusta (palauttaen), ne kuuluvat eri luokkiin. Mitä pienempi tämä todennäköisyys (epäpuhtaus) on, sitä parempi jako.
Gini-epäpuhtauden laskeminen binääriluokittelussa tapahtuu seuraavalla kaavalla:
gini=1−p02−p12=1−(mm0)2−(mm1)2Missä
- mi – luokan i havaintojen määrä solmussa;
- m – havaintojen määrä solmussa;
- pi=mmi – todennäköisyys valita luokka i.
Moniluokkaluokittelussa kaava on:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Missä
- C – luokkien määrä.
Jaon laatua voidaan mitata ottamalla Gini-arvojen painotettu summa molemmille solmuille, jotka saadaan jaosta. Tätä arvoa pyritään minimoimaan.
Päätössolmun jakamiseksi on löydettävä ominaisuus, jonka perusteella jakaminen tehdään, sekä kynnysarvo:
Päätössolmussa algoritmi etsii ahneesti parhaan kynnysarvon jokaiselle piirteelle. Tämän jälkeen se valitsee jaon, jolla on alin Gini-epäpuhtaus kaikista piirteistä (tasatilanteessa valinta tehdään satunnaisesti).
Entropia
Entropia on toinen epäpuhtauden mittari. Binäärisessä luokitteluongelmassa solmun entropia H lasketaan kaavalla:
H(p)=−plog2(p)−(1−p)log2(1−p)missä:
- p on positiivisten esimerkkien osuus (luokka 1);
- 1−p on negatiivisten esimerkkien osuus (luokka 0).
Moniluokkaluokittelussa solmun entropia H lasketaan kaavalla:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)missä:
- k on luokkien määrä;
- pi on solmussa luokkaan i kuuluvien esimerkkien osuus.
Samoin kuin Gini-epäpuhtauden kohdalla, jaon laatua voidaan mitata laskemalla lasten solmujen entropia-arvojen painotettu summa. Tämä on arvo, joka halutaan minimoida informaation määrän kasvattamiseksi.
Entropia on maksimissaan, kun kaikki luokat ovat yhtä edustettuina. Se on minimissään (0), kun kaikki esimerkit kuuluvat yhteen luokkaan (puhdas solmu).
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain the difference between Gini impurity and entropy?
How do you choose between using Gini impurity and entropy in practice?
Can you show an example calculation for Gini impurity or entropy?
Awesome!
Completion rate improved to 4.17
Solmujen Jakaminen
Pyyhkäise näyttääksesi valikon
Koulutuksen aikana on löydettävä paras jako jokaisessa päätössolmussa. Kun jaamme datan kahteen solmuun, tavoitteena on, että eri luokat sijoittuvat eri solmuihin.
- Paras mahdollinen tilanne: kaikki solmun tietopisteet kuuluvat samaan luokkaan;
- Heikoin mahdollinen tilanne: jokaisessa luokassa on yhtä monta tietopistettä.
Gini-epäpuhtaus
Jakamisen laadun mittaamiseen voidaan laskea Gini-epäpuhtaus. Se on todennäköisyys, että jos satunnaisesti valitaan kaksi pistettä samasta solmusta (palauttaen), ne kuuluvat eri luokkiin. Mitä pienempi tämä todennäköisyys (epäpuhtaus) on, sitä parempi jako.
Gini-epäpuhtauden laskeminen binääriluokittelussa tapahtuu seuraavalla kaavalla:
gini=1−p02−p12=1−(mm0)2−(mm1)2Missä
- mi – luokan i havaintojen määrä solmussa;
- m – havaintojen määrä solmussa;
- pi=mmi – todennäköisyys valita luokka i.
Moniluokkaluokittelussa kaava on:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Missä
- C – luokkien määrä.
Jaon laatua voidaan mitata ottamalla Gini-arvojen painotettu summa molemmille solmuille, jotka saadaan jaosta. Tätä arvoa pyritään minimoimaan.
Päätössolmun jakamiseksi on löydettävä ominaisuus, jonka perusteella jakaminen tehdään, sekä kynnysarvo:
Päätössolmussa algoritmi etsii ahneesti parhaan kynnysarvon jokaiselle piirteelle. Tämän jälkeen se valitsee jaon, jolla on alin Gini-epäpuhtaus kaikista piirteistä (tasatilanteessa valinta tehdään satunnaisesti).
Entropia
Entropia on toinen epäpuhtauden mittari. Binäärisessä luokitteluongelmassa solmun entropia H lasketaan kaavalla:
H(p)=−plog2(p)−(1−p)log2(1−p)missä:
- p on positiivisten esimerkkien osuus (luokka 1);
- 1−p on negatiivisten esimerkkien osuus (luokka 0).
Moniluokkaluokittelussa solmun entropia H lasketaan kaavalla:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)missä:
- k on luokkien määrä;
- pi on solmussa luokkaan i kuuluvien esimerkkien osuus.
Samoin kuin Gini-epäpuhtauden kohdalla, jaon laatua voidaan mitata laskemalla lasten solmujen entropia-arvojen painotettu summa. Tämä on arvo, joka halutaan minimoida informaation määrän kasvattamiseksi.
Entropia on maksimissaan, kun kaikki luokat ovat yhtä edustettuina. Se on minimissään (0), kun kaikki esimerkit kuuluvat yhteen luokkaan (puhdas solmu).
Kiitos palautteestasi!