Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende R-cuadrado | Elegir el Mejor Modelo
Regresión Lineal con Python

bookR-cuadrado

¿Qué es R-cuadrado

Hemos cubierto algunas de las métricas más utilizadas para regresión en el capítulo de Métricas. Estas son MSE, RMSE y MAE. Son útiles para comparar modelos, pero cuando construyes un solo modelo, no siempre es claro si el resultado es bueno para tu conjunto de datos o si necesitas seguir probando otros modelos.

Afortunadamente, existe una métrica llamada R-cuadrado que mide el rendimiento del modelo en una escala de 0 a 1. R-cuadrado calcula la proporción de la varianza del objetivo explicada por el modelo.

El problema es que no podemos calcular la varianza explicada de inmediato. Pero sí podemos calcular la varianza no explicada, así que transformaremos la ecuación anterior a:

Varianza total

La varianza total es simplemente la varianza del objetivo, y podemos calcular la varianza del objetivo utilizando la fórmula de varianza muestral de Estadística ( es la media del objetivo):

Aquí hay un ejemplo con visualización. Las diferencias entre el valor real del objetivo y la media del objetivo están coloreadas en naranja. Al igual que al calcular el SSR, tomamos la longitud de cada línea naranja, la elevamos al cuadrado y la sumamos al total, pero ahora también dividimos el resultado por m-1. Aquí obtenemos una varianza total de 11.07.

Varianza no explicada

Ahora necesitamos calcular la varianza que no es explicada por el modelo. Si el modelo explicara toda la varianza, todos los puntos estarían sobre la línea de regresión construida. Eso rara vez ocurre, por lo que queremos calcular la varianza del objetivo pero ahora con respecto a la línea de regresión en lugar de la media. Usaremos la misma fórmula pero reemplazando por las predicciones del modelo.

Aquí tienes un ejemplo con visualización:

Ahora sabemos todo lo necesario para calcular el R-cuadrado:

Obtuvimos una puntuación de R-cuadrado de 0.92, que está cerca de 1, por lo que tenemos un excelente modelo. También calcularemos el R-cuadrado para otro modelo más.

El R-cuadrado es más bajo ya que el modelo subajusta un poco los datos.

R-cuadrado en Python

La clase sm.OLS calcula el R-cuadrado por nosotros. Podemos encontrarlo en la tabla summary() aquí.

En resumen, el R-cuadrado es una métrica para una regresión. Puede tomar valores de 0 a 1. A diferencia de otras métricas como MSE/MAE, un valor más alto es mejor (a menos que el modelo sobreajuste). Puedes encontrar el R-cuadrado en la tabla summary() de la clase sm.OLS.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 5.26

bookR-cuadrado

Desliza para mostrar el menú

¿Qué es R-cuadrado

Hemos cubierto algunas de las métricas más utilizadas para regresión en el capítulo de Métricas. Estas son MSE, RMSE y MAE. Son útiles para comparar modelos, pero cuando construyes un solo modelo, no siempre es claro si el resultado es bueno para tu conjunto de datos o si necesitas seguir probando otros modelos.

Afortunadamente, existe una métrica llamada R-cuadrado que mide el rendimiento del modelo en una escala de 0 a 1. R-cuadrado calcula la proporción de la varianza del objetivo explicada por el modelo.

El problema es que no podemos calcular la varianza explicada de inmediato. Pero sí podemos calcular la varianza no explicada, así que transformaremos la ecuación anterior a:

Varianza total

La varianza total es simplemente la varianza del objetivo, y podemos calcular la varianza del objetivo utilizando la fórmula de varianza muestral de Estadística ( es la media del objetivo):

Aquí hay un ejemplo con visualización. Las diferencias entre el valor real del objetivo y la media del objetivo están coloreadas en naranja. Al igual que al calcular el SSR, tomamos la longitud de cada línea naranja, la elevamos al cuadrado y la sumamos al total, pero ahora también dividimos el resultado por m-1. Aquí obtenemos una varianza total de 11.07.

Varianza no explicada

Ahora necesitamos calcular la varianza que no es explicada por el modelo. Si el modelo explicara toda la varianza, todos los puntos estarían sobre la línea de regresión construida. Eso rara vez ocurre, por lo que queremos calcular la varianza del objetivo pero ahora con respecto a la línea de regresión en lugar de la media. Usaremos la misma fórmula pero reemplazando por las predicciones del modelo.

Aquí tienes un ejemplo con visualización:

Ahora sabemos todo lo necesario para calcular el R-cuadrado:

Obtuvimos una puntuación de R-cuadrado de 0.92, que está cerca de 1, por lo que tenemos un excelente modelo. También calcularemos el R-cuadrado para otro modelo más.

El R-cuadrado es más bajo ya que el modelo subajusta un poco los datos.

R-cuadrado en Python

La clase sm.OLS calcula el R-cuadrado por nosotros. Podemos encontrarlo en la tabla summary() aquí.

En resumen, el R-cuadrado es una métrica para una regresión. Puede tomar valores de 0 a 1. A diferencia de otras métricas como MSE/MAE, un valor más alto es mejor (a menos que el modelo sobreajuste). Puedes encontrar el R-cuadrado en la tabla summary() de la clase sm.OLS.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3
some-alt