Leer Verliesfunctie | Neuraal Netwerk Vanaf Nul

Bij het trainen van een neuraal netwerk is het noodzakelijk om te meten hoe nauwkeurig het model de juiste resultaten voorspelt. Dit gebeurt met behulp van een verliesfunctie, die het verschil berekent tussen de voorspellingen van het model en de werkelijke doelwaarden. Het doel van de training is om dit verlies te minimaliseren, zodat de voorspellingen zo dicht mogelijk bij de werkelijke uitkomsten liggen.

Voor binaire classificatie-taken is een van de meest gebruikte verliesfuncties de cross-entropy loss, die bijzonder effectief is voor modellen die waarschijnlijkheden als output geven.

Afleiding van Cross-Entropy Loss

Om de cross-entropy loss te begrijpen, wordt het maximum likelihood-principe beschouwd. Bij een binaire classificatie is het doel om een model te trainen dat de waarschijnlijkheid $\hat{y}$ schat dat een gegeven invoer tot klasse 1 behoort. Het werkelijke label $y$ kan één van de twee waarden aannemen: 0 of 1.

Een effectief model moet hoge waarschijnlijkheden toekennen aan correcte voorspellingen. Dit idee wordt geformaliseerd via de likelihoodfunctie, die de kans weergeeft om de werkelijke data te observeren gegeven de voorspellingen van het model.

Voor een enkele trainingsvoorbeeld, onder de aanname van onafhankelijkheid, kan de likelihood als volgt worden uitgedrukt:

P(y|x) = \hat{y}^y(1 - \hat{y})^{1 - y}

Deze uitdrukking betekent het volgende:

Als $y = 1$ , dan $P(y|x) = \hat{y}$ — het model moet een hoge waarschijnlijkheid toekennen aan klasse 1;
Als $y = 0$ , dan $P(y|x) = 1 - \hat{y}$ — het model moet een hoge waarschijnlijkheid toekennen aan klasse 0.

In beide gevallen is het doel om de kans te maximaliseren die het model aan de juiste klasse toekent.

Opmerking

$P(y|x)$ betekent de kans om het werkelijke klasse-label $y$ te observeren gegeven de invoerwaarden $x$ .

Om optimalisatie te vereenvoudigen wordt de log-likelihood gebruikt in plaats van de likelihoodfunctie, omdat het nemen van de logaritme producten omzet in sommen, waardoor differentiëren eenvoudiger wordt:

\log P(y|x) = y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})

Omdat het trainen gericht is op het maximaliseren van de log-likelihood, wordt de verliesfunctie gedefinieerd als de negatieve waarde hiervan zodat het optimalisatieproces een minimalisatieprobleem wordt:

L = -\big(y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\big)

Dit is de binaire cross-entropy verliesfunctie, veelgebruikt bij classificatieproblemen.

Aangenomen dat de variabele output staat voor $\hat{y}$ voor een specifiek trainingsvoorbeeld, en de variabele target staat voor $y$ voor dit trainingsvoorbeeld, kan deze verliesfunctie als volgt worden geïmplementeerd:

import numpy as np

loss = -(target * np.log(output) + (1 - target) * np.log(1 - output))

Waarom deze formule?

Cross-entropy verlies heeft een duidelijke intuïtieve interpretatie:

Als $y = 1$ , vereenvoudigt het verlies tot $-\log(\hat{y})$ , wat betekent dat het verlies laag is wanneer $\hat{y}$ dicht bij 1 ligt en zeer hoog wanneer $\hat{y}$ dicht bij 0 ligt;
Als $y = 0$ , vereenvoudigt het verlies tot $-\log(1 - \hat{y})$ , wat betekent dat het verlies laag is wanneer $\hat{y}$ dicht bij 0 ligt en zeer hoog wanneer het dicht bij 1 ligt.

Aangezien logaritmen negatief groot worden naarmate hun invoer nul nadert, worden onjuiste voorspellingen zwaar bestraft, wat het model aanmoedigt om zelfverzekerde, correcte voorspellingen te doen.

Als meerdere voorbeelden worden doorgegeven tijdens de forward propagatie, wordt het totale verlies berekend als het gemiddelde verlies over alle voorbeelden:

L = -\frac1N \sum_{i=1}^N (y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i))

waarbij $N$ het aantal trainingsvoorbeelden is.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 6

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4

Veeg om het menu te tonen