Solmujen Jakaminen
Koulutuksen aikana on löydettävä paras jako jokaisessa päätössolmussa. Kun jaamme datan kahteen solmuun, tavoitteena on, että eri luokat sijoittuvat eri solmuihin.
- Paras tapaus: kaikki solmun datapisteet kuuluvat samaan luokkaan;
- Huonoin tapaus: jokaisessa luokassa on yhtä monta datapistettä.
Gini-epäpuhtaus
Jakamisen laadun mittaamiseen voidaan laskea Gini-epäpuhtaus. Se on todennäköisyys, että jos satunnaisesti valitaan kaksi pistettä solmusta (palauttaen), ne kuuluvat eri luokkiin. Mitä pienempi tämä todennäköisyys (epäpuhtaus) on, sitä parempi jako.
Gini-epäpuhtauden laskeminen binääriluokittelussa tapahtuu seuraavalla kaavalla:
gini=1−p02−p12=1−(mm0)2−(mm1)2Missä
- mi – luokan i havaintojen määrä solmussa;
- m – havaintojen määrä solmussa;
- pi=mmi – todennäköisyys valita luokka i.
Ja moniluokkaluokittelussa kaava on:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Missä
- C – luokkien määrä.
Voimme mitata jaon laatua laskemalla Gini-arvojen painotetun summan molemmille solmuille, jotka syntyvät jaosta. Tätä arvoa pyritään minimoimaan.
Päätössolmun jakamiseksi on löydettävä ominaisuus, jonka perusteella jakaminen tehdään, sekä kynnysarvo:
Päätössolmussa algoritmi etsii ahneesti parhaan kynnysarvon jokaiselle piirteelle. Tämän jälkeen se valitsee jaon, jolla on alin Gini-epäpuhtaus kaikista piirteistä (tasatilanteessa valinta tehdään satunnaisesti).
Entropia
Entropia on toinen epäpuhtauden mittari. Binäärisessä luokitteluongelmassa solmun entropia H lasketaan kaavalla:
H(p)=−plog2(p)−(1−p)log2(1−p)missä:
- p on positiivisten esimerkkien osuus (luokka 1);
- 1−p on negatiivisten esimerkkien osuus (luokka 0).
Moniluokkaisessa luokitteluongelmassa solmun entropia H lasketaan kaavalla:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)missä:
- k on luokkien määrä;
- pi on solmussa luokkaan i kuuluvien esimerkkien osuus.
Samoin kuin Gini-epäpuhtauden kohdalla, jaon laatua voidaan mitata laskemalla lasten solmujen entropia-arvojen painotettu summa. Tätä arvoa pyritään minimoimaan informaation määrän kasvattamiseksi.
Entropia on maksimissaan, kun kaikki luokat ovat yhtä edustettuina. Se on minimissään (0), kun kaikki esimerkit kuuluvat yhteen luokkaan (puhdas solmu).
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Mahtavaa!
Completion arvosana parantunut arvoon 3.33
Solmujen Jakaminen
Pyyhkäise näyttääksesi valikon
Koulutuksen aikana on löydettävä paras jako jokaisessa päätössolmussa. Kun jaamme datan kahteen solmuun, tavoitteena on, että eri luokat sijoittuvat eri solmuihin.
- Paras tapaus: kaikki solmun datapisteet kuuluvat samaan luokkaan;
- Huonoin tapaus: jokaisessa luokassa on yhtä monta datapistettä.
Gini-epäpuhtaus
Jakamisen laadun mittaamiseen voidaan laskea Gini-epäpuhtaus. Se on todennäköisyys, että jos satunnaisesti valitaan kaksi pistettä solmusta (palauttaen), ne kuuluvat eri luokkiin. Mitä pienempi tämä todennäköisyys (epäpuhtaus) on, sitä parempi jako.
Gini-epäpuhtauden laskeminen binääriluokittelussa tapahtuu seuraavalla kaavalla:
gini=1−p02−p12=1−(mm0)2−(mm1)2Missä
- mi – luokan i havaintojen määrä solmussa;
- m – havaintojen määrä solmussa;
- pi=mmi – todennäköisyys valita luokka i.
Ja moniluokkaluokittelussa kaava on:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Missä
- C – luokkien määrä.
Voimme mitata jaon laatua laskemalla Gini-arvojen painotetun summan molemmille solmuille, jotka syntyvät jaosta. Tätä arvoa pyritään minimoimaan.
Päätössolmun jakamiseksi on löydettävä ominaisuus, jonka perusteella jakaminen tehdään, sekä kynnysarvo:
Päätössolmussa algoritmi etsii ahneesti parhaan kynnysarvon jokaiselle piirteelle. Tämän jälkeen se valitsee jaon, jolla on alin Gini-epäpuhtaus kaikista piirteistä (tasatilanteessa valinta tehdään satunnaisesti).
Entropia
Entropia on toinen epäpuhtauden mittari. Binäärisessä luokitteluongelmassa solmun entropia H lasketaan kaavalla:
H(p)=−plog2(p)−(1−p)log2(1−p)missä:
- p on positiivisten esimerkkien osuus (luokka 1);
- 1−p on negatiivisten esimerkkien osuus (luokka 0).
Moniluokkaisessa luokitteluongelmassa solmun entropia H lasketaan kaavalla:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)missä:
- k on luokkien määrä;
- pi on solmussa luokkaan i kuuluvien esimerkkien osuus.
Samoin kuin Gini-epäpuhtauden kohdalla, jaon laatua voidaan mitata laskemalla lasten solmujen entropia-arvojen painotettu summa. Tätä arvoa pyritään minimoimaan informaation määrän kasvattamiseksi.
Entropia on maksimissaan, kun kaikki luokat ovat yhtä edustettuina. Se on minimissään (0), kun kaikki esimerkit kuuluvat yhteen luokkaan (puhdas solmu).
Kiitos palautteestasi!