Oppiskele Parametrien Löytäminen

Pyyhkäise näyttääksesi valikon

Logistinen regressio vaatii tietokoneelta ainoastaan parhaiden parametrien $β$ oppimista. Tätä varten meidän täytyy määritellä, mitä "parhaat parametrit" tarkoittaa. Palataanpa siihen, miten malli toimii: se ennustaa $p$ - todennäköisyyden kuulua luokkaan 1:

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Missä

\sigma (z) = \frac{1}{1 + e^{-z}}

On selvää, että malli, jolla on hyvät parametrit, ennustaa korkean (lähellä 1) $p$ arvon tapauksille, jotka todella kuuluvat luokkaan 1, ja matalan (lähellä 0) $p$ arvon tapauksille, joiden todellinen luokka on 0.

Mallin hyvyyden tai huonouden mittaamiseen käytetään kustannusfunktiota. Lineaarisessa regressiossa käytettiin MSE:tä (keskineliövirhe) kustannusfunktiona. Tällä kertaa käytetään eri funktiota:

Tässä $p$ edustaa mallin ennustamaa todennäköisyyttä kuulua luokkaan 1, kun taas $y$ tarkoittaa todellista tavoitearvoa.

Tämä funktio ei ainoastaan rankaise virheellisistä ennusteista, vaan ottaa huomioon myös mallin varmuuden ennusteissaan. Kuten yllä olevassa kuvassa on esitetty, kun $p$ on lähellä $y$ :tä (todellista tavoitetta), kustannusfunktio pysyy melko pienenä, mikä osoittaa, että malli valitsi oikean luokan luottavaisesti. Jos ennuste on väärä, kustannusfunktio kasvaa eksponentiaalisesti mallin varmuuden kasvaessa väärässä luokassa.

Binääriluokittelun yhteydessä, jossa käytetään sigmoidifunktiota, käytettyä kustannusfunktiota kutsutaan erityisesti binääriseksi ristientropiahäviöksi (binary cross-entropy loss), joka esitettiin yllä. On tärkeää huomata, että on olemassa myös yleinen muoto, nimeltään ristientropiahäviö (cross-entropy loss) tai kategorinen ristientropiahäviö, jota käytetään moniluokkaisissa luokitteluongelmissa.

Kategorinen ristientropiahäviö yhdelle koulutusesimerkille lasketaan seuraavasti:

\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Missä

$C$ on luokkien määrä;
$y_i$ on todellinen tavoitearvo (1 jos luokka on oikea, muuten 0);
$p_i$ on ennustettu todennäköisyys, että esimerkki kuuluu luokkaan $i$ .

Häviöfunktio lasketaan jokaiselle koulutusesimerkille ja otetaan keskiarvo. Tätä keskiarvoa kutsutaan kustannusfunktioksi. Logistinen regressio etsii parametrit $\beta$ , jotka minimoivat kustannusfunktion.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 22

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 22