Coefficient de Détermination
Qu'est-ce que le R-carré
Nous avons abordé certains des indicateurs les plus utilisés pour la régression dans le chapitre Métriques. Il s'agit du MSE, du RMSE et du MAE. Ils sont utiles pour comparer des modèles, mais lorsque vous construisez un seul modèle, il n'est pas toujours évident de savoir si le score obtenu est satisfaisant pour votre jeu de données ou s'il est nécessaire d'essayer d'autres modèles.
Heureusement, il existe un indicateur appelé R-carré qui mesure la performance du modèle sur une échelle de 0 à 1. Le R-carré calcule la proportion de la variance de la cible expliquée par le modèle.
Le problème est que nous ne pouvons pas calculer directement la variance expliquée. Cependant, il est possible de calculer la variance inexpliquée, donc nous allons transformer l'équation ci-dessus ainsi :
Variance totale
La variance totale correspond simplement à la variance de la variable cible, que l’on peut calculer à l’aide de la formule de la variance d’échantillon en statistiques (ȳ représente la moyenne de la cible) :
Voici un exemple avec une visualisation. Les différences entre la valeur réelle de la cible et la moyenne de la cible sont colorées en orange. Comme pour le calcul du SSR, on prend la longueur de chaque segment orange, on l’élève au carré, puis on additionne le tout, mais cette fois, on divise également le résultat par m-1. Ici, la variance totale obtenue est de 11,07.
Variance inexpliquée
Nous devons maintenant calculer la variance qui n’est pas expliquée par le modèle. Si le modèle expliquait toute la variance, tous les points seraient situés sur la droite de régression construite. Cela arrive rarement, donc nous souhaitons calculer la variance de la cible, mais cette fois par rapport à la droite de régression au lieu de la moyenne. Nous utiliserons la même formule, mais en remplaçant ȳ par les prédictions du modèle.
Voici un exemple avec visualisation :
Nous connaissons maintenant tout ce qu'il faut pour calculer le R-carré :
Nous avons obtenu un score R-carré de 0,92, ce qui est proche de 1, donc nous avons un excellent modèle. Nous allons également calculer le R-carré pour un autre modèle.
Le R-carré est plus faible car le modèle sous-ajuste légèrement les données.
R-carré en Python
La classe sm.OLS
calcule le R-carré pour nous. Il est disponible dans le tableau summary()
ici.
En résumé, le R-carré est une métrique pour la régression. Sa valeur varie de 0 à 1. Contrairement à d'autres métriques comme MSE/MAE, une valeur plus élevée est préférable (sauf si le modèle surajuste). Vous pouvez trouver le R-carré dans le tableau summary()
de la classe sm.OLS
.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain what a good R-squared value is?
How does R-squared compare to other regression metrics like MSE or MAE?
Can R-squared ever be negative?
Awesome!
Completion rate improved to 5.26
Coefficient de Détermination
Glissez pour afficher le menu
Qu'est-ce que le R-carré
Nous avons abordé certains des indicateurs les plus utilisés pour la régression dans le chapitre Métriques. Il s'agit du MSE, du RMSE et du MAE. Ils sont utiles pour comparer des modèles, mais lorsque vous construisez un seul modèle, il n'est pas toujours évident de savoir si le score obtenu est satisfaisant pour votre jeu de données ou s'il est nécessaire d'essayer d'autres modèles.
Heureusement, il existe un indicateur appelé R-carré qui mesure la performance du modèle sur une échelle de 0 à 1. Le R-carré calcule la proportion de la variance de la cible expliquée par le modèle.
Le problème est que nous ne pouvons pas calculer directement la variance expliquée. Cependant, il est possible de calculer la variance inexpliquée, donc nous allons transformer l'équation ci-dessus ainsi :
Variance totale
La variance totale correspond simplement à la variance de la variable cible, que l’on peut calculer à l’aide de la formule de la variance d’échantillon en statistiques (ȳ représente la moyenne de la cible) :
Voici un exemple avec une visualisation. Les différences entre la valeur réelle de la cible et la moyenne de la cible sont colorées en orange. Comme pour le calcul du SSR, on prend la longueur de chaque segment orange, on l’élève au carré, puis on additionne le tout, mais cette fois, on divise également le résultat par m-1. Ici, la variance totale obtenue est de 11,07.
Variance inexpliquée
Nous devons maintenant calculer la variance qui n’est pas expliquée par le modèle. Si le modèle expliquait toute la variance, tous les points seraient situés sur la droite de régression construite. Cela arrive rarement, donc nous souhaitons calculer la variance de la cible, mais cette fois par rapport à la droite de régression au lieu de la moyenne. Nous utiliserons la même formule, mais en remplaçant ȳ par les prédictions du modèle.
Voici un exemple avec visualisation :
Nous connaissons maintenant tout ce qu'il faut pour calculer le R-carré :
Nous avons obtenu un score R-carré de 0,92, ce qui est proche de 1, donc nous avons un excellent modèle. Nous allons également calculer le R-carré pour un autre modèle.
Le R-carré est plus faible car le modèle sous-ajuste légèrement les données.
R-carré en Python
La classe sm.OLS
calcule le R-carré pour nous. Il est disponible dans le tableau summary()
ici.
En résumé, le R-carré est une métrique pour la régression. Sa valeur varie de 0 à 1. Contrairement à d'autres métriques comme MSE/MAE, une valeur plus élevée est préférable (sauf si le modèle surajuste). Vous pouvez trouver le R-carré dans le tableau summary()
de la classe sm.OLS
.
Merci pour vos commentaires !