Apprendre Détermination des Paramètres

Glissez pour afficher le menu

La régression logistique nécessite uniquement que l'ordinateur apprenne les meilleurs paramètres $β$ . Pour cela, il est nécessaire de définir ce que signifie « meilleurs paramètres ». Rappelons le fonctionnement du modèle : il prédit la probabilité $p$ d'appartenir à la classe 1 :

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Où

\sigma (z) = \frac{1}{1 + e^{-z}}

Évidemment, un modèle avec de bons paramètres est celui qui prédit une valeur élevée (proche de 1) pour $p$ lorsque l'instance appartient réellement à la classe 1, et une valeur faible (proche de 0) pour $p$ lorsque l'instance appartient réellement à la classe 0.

Pour évaluer la qualité ou la médiocrité du modèle, une fonction de coût est utilisée. En régression linéaire, la MSE (erreur quadratique moyenne) servait de fonction de coût. Cette fois, une fonction différente est employée :

Ici, $p$ représente la probabilité d'appartenir à la classe 1, telle que prédite par le modèle, tandis que $y$ désigne la valeur cible réelle.

Cette fonction pénalise non seulement les prédictions incorrectes, mais prend également en compte le degré de confiance du modèle dans ses prédictions. Comme illustré dans l'image ci-dessus, lorsque la valeur de $p$ est proche de $y$ (la cible réelle), la fonction de coût reste relativement faible, indiquant que le modèle a sélectionné la bonne classe avec confiance. À l'inverse, si la prédiction est incorrecte, la fonction de coût augmente de façon exponentielle à mesure que la confiance du modèle dans la mauvaise classe grandit.

Dans le contexte de la classification binaire avec une fonction sigmoïde, la fonction de coût utilisée est spécifiquement appelée perte d'entropie croisée binaire, comme montré ci-dessus. Il est important de noter qu'il existe également une forme générale appelée perte d'entropie croisée (ou entropie croisée catégorielle) utilisée pour les problèmes de classification multiclasse.

La perte d'entropie croisée catégorielle pour un seul exemple d'entraînement se calcule comme suit :

\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Où

$C$ est le nombre de classes ;
$y_i$ est la valeur cible réelle (1 si la classe est la bonne, 0 sinon) ;
$p_i$ est la probabilité prédite que l'exemple appartienne à la classe $i$ .

On calcule la fonction de perte pour chaque exemple d'entraînement puis on fait la moyenne. Cette moyenne est appelée fonction de coût. La régression logistique trouve les paramètres $\beta$ qui minimisent la fonction de coût.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 2. Chapitre 2