Pyyhkäise näyttääksesi valikon

Neuroverkon koulutuksessa on tarpeen mitata, kuinka tarkasti malli ennustaa oikeat tulokset. Tämä tehdään käyttämällä häviöfunktiota, joka laskee mallin ennusteiden ja todellisten tavoitearvojen välisen eron. Koulutuksen tavoitteena on minimoida tämä häviö, jolloin ennusteet ovat mahdollisimman lähellä todellisia tuloksia.

Binaariluokittelutehtävissä yksi yleisimmin käytetyistä häviöfunktioista on ristientropiahäviö, joka on erityisen tehokas malleille, jotka tuottavat todennäköisyyksiä.

Ristientropiahäviön johtaminen

Ristientropiahäviön ymmärtämiseksi tarkastellaan maksimiennustettavuuden periaatetta. Binaariluokitteluongelmassa tavoitteena on kouluttaa malli, joka arvioi todennäköisyyden $\hat{y}$ sille, että annettu syöte kuuluu luokkaan 1. Todellinen luokkamerkintä $y$ voi saada arvon 0 tai 1.

Tehokkaan mallin tulisi antaa korkeat todennäköisyydet oikeille ennusteille. Tämä ajatus muotoillaan todennäköisyysfunktion avulla, joka kuvaa todennäköisyyttä havaita todelliset tiedot mallin ennusteiden perusteella.

Yhdelle koulutusesimerkille, olettaen riippumattomuuden, todennäköisyys voidaan esittää seuraavasti:

P(y|x) = \hat{y}^y(1 - \hat{y})^{1 - y}

Tämä lauseke tarkoittaa seuraavaa:

Jos $y = 1$ , niin $P(y|x) = \hat{y}$ — mallin tulisi antaa korkea todennäköisyys luokalle 1;
Jos $y = 0$ , niin $P(y|x) = 1 - \hat{y}$ — mallin tulisi antaa korkea todennäköisyys luokalle 0.

Molemmissa tapauksissa tavoitteena on maksimoida todennäköisyys, jonka malli antaa oikealle luokalle.

Huomio

$P(y|x)$ tarkoittaa todennäköisyyttä havaita todellinen luokkamerkintä $y$ annetuille syötteille $x$ .

Optimoinnin yksinkertaistamiseksi käytetään logaritmista todennäköisyyttä (log-likelihood) todennäköisyysfunktion sijaan, koska logaritmin ottaminen muuttaa tulot summiksi, mikä helpottaa derivointia:

\log P(y|x) = y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})

Koska koulutuksen tavoitteena on maksimoida logaritminen todennäköisyys, häviöfunktio määritellään sen negatiiviseksi arvoksi, jotta optimointiprosessista tulee minimointiongelma:

L = -\big(y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\big)

Tämä on binäärinen ristientropiahäviöfunktio, jota käytetään yleisesti luokitteluongelmissa.

Kun output-muuttuja edustaa $\hat{y}$ tietylle opetusesimerkille ja target-muuttuja edustaa $y$ tälle opetusesimerkille, tämä häviöfunktio voidaan toteuttaa seuraavasti:

import numpy as np

loss = -(target * np.log(output) + (1 - target) * np.log(1 - output))

Miksi tämä kaava?

Ristientropiahäviöllä on selkeä intuitiivinen tulkinta:

Jos $y = 1$ , häviö yksinkertaistuu muotoon $-\log(\hat{y})$ , eli häviö on pieni, kun $\hat{y}$ on lähellä arvoa 1 ja hyvin suuri, kun $\hat{y}$ on lähellä nollaa;
Jos $y = 0$ , häviö yksinkertaistuu muotoon $-\log(1 - \hat{y})$ , eli häviö on pieni, kun $\hat{y}$ on lähellä nollaa ja hyvin suuri, kun se on lähellä arvoa 1.

Koska logaritmit kasvavat negatiivisesti suuriksi syötteen lähestyessä nollaa, väärät ennusteet rangaistaan voimakkaasti, mikä kannustaa mallia tekemään varmoja ja oikeita ennusteita.

Jos eteenpäin syötetään useita esimerkkejä, kokonaishäviö lasketaan kaikkien esimerkkien keskimääräisenä häviönä:

L = -\frac1N \sum_{i=1}^N (y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i))

missä $N$ on opetusesimerkkien määrä.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 13

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Häviöfunktio