Glissez pour afficher le menu

La régression logistique est en réalité un algorithme de classification, malgré le mot « Régression » dans son nom.

Elle tire son nom du fait qu'elle est basée sur la régression linéaire, mais utilise une fonction logistique (sigmoïde) pour convertir la sortie en probabilités, ce qui lui permet de classer les données en catégories au lieu de prédire des valeurs continues.

Supposons que vous souhaitiez prédire si une personne fera défaut sur un premier prêt (aucun historique de crédit disponible).

En régression linéaire, on construit une équation pour prédire des valeurs numériques. On peut utiliser la même équation pour calculer un « score de fiabilité ». Celui-ci prendra en compte des caractéristiques telles que le revenu, la durée de l'emploi actuel, le ratio dette/revenu, etc. Un score de fiabilité plus élevé signifie une probabilité de défaut plus faible.

Les valeurs $\beta$ sont les paramètres que le modèle doit apprendre. Pendant l'entraînement, l'ordinateur ajuste ces valeurs afin d'améliorer les prédictions. Il le fait en essayant de minimiser la différence entre les résultats prédits et les étiquettes réelles – cette différence est mesurée par ce que l'on appelle la fonction de perte.

Pour transformer la sortie brute du modèle en une étiquette de classe (0 ou 1), la régression logistique utilise une fonction sigmoïde. Cette fonction prend n'importe quel nombre réel et le ramène dans un intervalle entre 0 et 1, ce qui permet de l'interpréter comme une probabilité.

La fonction sigmoïde est définie comme suit :

\sigma(z) = \frac{1}{1 + e^{-z}}

Ici, $z$ est le score (également appelé logit) que nous avons calculé précédemment.

Étant donné deux classes : 1 (une personne fera défaut sur un premier prêt) et 0 (une personne ne fera pas défaut sur un premier prêt), après application de la sigmoïde, on obtient la probabilité que l'instance appartienne à la classe 1.

Pour prendre une décision finale (0 ou 1), comparaison de la probabilité avec un seuil - généralement 0,5 :

Si la probabilité est supérieure à 0,5, prédiction de 1 ;
Si elle est inférieure ou égale à 0,5, prédiction de 0.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Qu'est-ce que la régression logistique