Apprendre Fonction de Perte | Réseau de Neurones à Partir de Zéro

Lors de l'entraînement d'un réseau de neurones, il est nécessaire de mesurer la précision avec laquelle le modèle prédit les résultats corrects. Cela se fait à l'aide d'une fonction de perte, qui calcule la différence entre les prédictions du modèle et les valeurs cibles réelles. L'objectif de l'entraînement est de minimiser cette perte, afin de rapprocher autant que possible les prédictions des sorties réelles.

Pour les tâches de classification binaire, l'une des fonctions de perte les plus couramment utilisées est la perte d'entropie croisée, particulièrement efficace pour les modèles produisant des probabilités.

Dérivation de la perte d'entropie croisée

Pour comprendre la perte d'entropie croisée, il convient de considérer le principe du maximum de vraisemblance. Dans un problème de classification binaire, l'objectif est d'entraîner un modèle qui estime la probabilité $\hat{y}$ qu'une entrée donnée appartienne à la classe 1. La véritable étiquette $y$ peut prendre l'une des deux valeurs : 0 ou 1.

Un modèle efficace doit attribuer des probabilités élevées aux prédictions correctes. Cette idée est formalisée à travers la fonction de vraisemblance, qui représente la probabilité d'observer les données réelles compte tenu des prédictions du modèle.

Pour un exemple d'entraînement unique, en supposant l'indépendance, la vraisemblance peut s'exprimer comme suit :

P(y|x) = \hat{y}^y(1 - \hat{y})^{1 - y}

Cette expression signifie ce qui suit :

Si $y = 1$ , alors $P(y|x) = \hat{y}$ — le modèle doit attribuer une probabilité élevée à la classe 1 ;
Si $y = 0$ , alors $P(y|x) = 1 - \hat{y}$ — le modèle doit attribuer une probabilité élevée à la classe 0.

Dans les deux cas, l'objectif est de maximiser la probabilité que le modèle attribue à la classe correcte.

Remarque

$P(y|x)$ désigne la probabilité d'observer la véritable étiquette de classe $y$ étant donné les entrées $x$ .

Pour simplifier l'optimisation, la log-vraisemblance est utilisée à la place de la fonction de vraisemblance, car la prise du logarithme transforme les produits en sommes, ce qui facilite la différentiation :

\log P(y|x) = y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})

Puisque l'entraînement vise à maximiser la log-vraisemblance, la fonction de perte est définie comme sa valeur négative afin que le processus d'optimisation devienne un problème de minimisation :

L = -\big(y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\big)

Il s'agit de la fonction de perte binaire par entropie croisée, couramment utilisée pour les problèmes de classification.

Étant donné que la variable output représente $\hat{y}$ pour un exemple d'entraînement particulier, et que la variable target représente $y$ pour cet exemple, cette fonction de perte peut être implémentée comme suit :

import numpy as np

loss = -(target * np.log(output) + (1 - target) * np.log(1 - output))

Pourquoi cette formule ?

La perte par entropie croisée possède une interprétation intuitive claire :

Si $y = 1$ , la perte se simplifie en $-\log(\hat{y})$ , ce qui signifie que la perte est faible lorsque $\hat{y}$ est proche de 1 et très élevée lorsque $\hat{y}$ est proche de 0 ;
Si $y = 0$ , la perte se simplifie en $-\log(1 - \hat{y})$ , ce qui signifie que la perte est faible lorsque $\hat{y}$ est proche de 0 et très élevée lorsqu'elle est proche de 1.

Puisque les logarithmes deviennent très négatifs lorsque leur entrée approche de zéro, les prédictions incorrectes sont fortement pénalisées, ce qui encourage le modèle à effectuer des prédictions correctes et confiantes.

Si plusieurs exemples sont transmis lors de la propagation avant, la perte totale est calculée comme la perte moyenne sur l'ensemble des exemples :

L = -\frac1N \sum_{i=1}^N (y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i))

où $N$ est le nombre d'exemples d'entraînement.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 6

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4

Glissez pour afficher le menu