R-Cuadrado
¿Qué es R-cuadrado?
Hemos cubierto algunas de las métricas más utilizadas para regresión en el capítulo de Métricas. Estas son MSE, RMSE y MAE. Son útiles para comparar modelos, pero cuando se construye un solo modelo, no siempre se entiende si es una buena puntuación para su conjunto de datos o si es necesario seguir probando otros modelos.
Afortunadamente, existe una métrica llamada R-cuadrado que mide el rendimiento del modelo en una escala de 0 a 1. R-cuadrado calcula la proporción de la varianza del objetivo explicada por el modelo.
El problema es que no podemos calcular la varianza explicada de inmediato. Pero sí podemos calcular la varianza no explicada, por lo que transformaremos la ecuación anterior a:
Varianza total
La varianza total es simplemente la varianza del objetivo, y podemos calcular la varianza del objetivo utilizando la fórmula de varianza muestral de Estadística (ȳ es la media del objetivo):
Aquí hay un ejemplo con visualización. Las diferencias entre el valor real del objetivo y la media del objetivo están coloreadas en naranja. Al igual que al calcular SSR, tomamos la longitud de cada línea naranja, la elevamos al cuadrado y la sumamos al total, pero ahora también dividimos el resultado por m-1. Aquí obtuvimos una varianza total de 11.07.
Varianza no explicada
Ahora necesitamos calcular la varianza que no es explicada por el modelo. Si el modelo explicara toda la varianza, todos los puntos estarían sobre la línea de regresión construida. Eso rara vez ocurre, por lo que queremos calcular la varianza del objetivo pero ahora con respecto a la línea de regresión en lugar de la media. Usaremos la misma fórmula pero reemplazando ȳ por las predicciones del modelo.
Aquí tienes un ejemplo con visualización:
Ahora sabemos todo lo necesario para calcular el R-cuadrado:
Obtenemos un valor de R-cuadrado de 0.92, que es cercano a 1, por lo que tenemos un modelo excelente. También calcularemos el R-cuadrado para otro modelo más.
El valor de R-cuadrado es más bajo ya que el modelo subajusta ligeramente los datos.
R-cuadrado en Python
La clase sm.OLS
calcula el R-cuadrado por nosotros. Podemos encontrarlo en la tabla summary()
aquí.
En resumen, R-cuadrado es una métrica para regresión. Puede tomar valores de 0 a 1. A diferencia de otras métricas como MSE/MAE, un valor más alto es mejor (a menos que el modelo sobreajuste). Puede encontrar el R-cuadrado en la tabla summary()
de la clase sm.OLS
.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain what a good R-squared value is?
How does R-squared compare to other regression metrics like MSE or MAE?
Can R-squared ever be negative?
Awesome!
Completion rate improved to 5.26
R-Cuadrado
Desliza para mostrar el menú
¿Qué es R-cuadrado?
Hemos cubierto algunas de las métricas más utilizadas para regresión en el capítulo de Métricas. Estas son MSE, RMSE y MAE. Son útiles para comparar modelos, pero cuando se construye un solo modelo, no siempre se entiende si es una buena puntuación para su conjunto de datos o si es necesario seguir probando otros modelos.
Afortunadamente, existe una métrica llamada R-cuadrado que mide el rendimiento del modelo en una escala de 0 a 1. R-cuadrado calcula la proporción de la varianza del objetivo explicada por el modelo.
El problema es que no podemos calcular la varianza explicada de inmediato. Pero sí podemos calcular la varianza no explicada, por lo que transformaremos la ecuación anterior a:
Varianza total
La varianza total es simplemente la varianza del objetivo, y podemos calcular la varianza del objetivo utilizando la fórmula de varianza muestral de Estadística (ȳ es la media del objetivo):
Aquí hay un ejemplo con visualización. Las diferencias entre el valor real del objetivo y la media del objetivo están coloreadas en naranja. Al igual que al calcular SSR, tomamos la longitud de cada línea naranja, la elevamos al cuadrado y la sumamos al total, pero ahora también dividimos el resultado por m-1. Aquí obtuvimos una varianza total de 11.07.
Varianza no explicada
Ahora necesitamos calcular la varianza que no es explicada por el modelo. Si el modelo explicara toda la varianza, todos los puntos estarían sobre la línea de regresión construida. Eso rara vez ocurre, por lo que queremos calcular la varianza del objetivo pero ahora con respecto a la línea de regresión en lugar de la media. Usaremos la misma fórmula pero reemplazando ȳ por las predicciones del modelo.
Aquí tienes un ejemplo con visualización:
Ahora sabemos todo lo necesario para calcular el R-cuadrado:
Obtenemos un valor de R-cuadrado de 0.92, que es cercano a 1, por lo que tenemos un modelo excelente. También calcularemos el R-cuadrado para otro modelo más.
El valor de R-cuadrado es más bajo ya que el modelo subajusta ligeramente los datos.
R-cuadrado en Python
La clase sm.OLS
calcula el R-cuadrado por nosotros. Podemos encontrarlo en la tabla summary()
aquí.
En resumen, R-cuadrado es una métrica para regresión. Puede tomar valores de 0 a 1. A diferencia de otras métricas como MSE/MAE, un valor más alto es mejor (a menos que el modelo sobreajuste). Puede encontrar el R-cuadrado en la tabla summary()
de la clase sm.OLS
.
¡Gracias por tus comentarios!