Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende R-cuadrado | Elegir el Mejor Modelo
Regresión Lineal con Python

bookR-cuadrado

¿Qué es R-cuadrado?

Ya hemos cubierto MSE, RMSE y MAE. Estas métricas ayudan a comparar modelos, pero un solo valor es difícil de evaluar sin contexto. Puede que no se sepa si el valor es "suficientemente bueno" para el conjunto de datos.

R-cuadrado resuelve esto midiendo cuánta varianza del objetivo explica el modelo. Su valor varía de 0 a 1, lo que facilita la interpretación.

El problema es que no podemos calcular la varianza explicada de inmediato. Pero sí podemos calcular la varianza no explicada, así que transformaremos la ecuación anterior a:

Varianza total

La varianza total es simplemente la varianza del objetivo, y podemos calcular la varianza del objetivo utilizando la fórmula de varianza muestral de Estadística ( es la media del objetivo):

En el ejemplo, las diferencias entre los valores reales y la media del objetivo (líneas naranjas) se elevan al cuadrado y se suman, luego se dividen por m−1, lo que da una varianza total de 11.07.

Varianza no explicada

A continuación, calculamos la varianza que el modelo no explica. Si las predicciones fueran perfectas, todos los puntos estarían exactamente sobre la línea de regresión. Calculamos la misma fórmula de varianza, pero reemplazamos por los valores predichos.

Aquí tienes un ejemplo con visualización:

Ahora sabemos todo lo necesario para calcular el R-cuadrado:

Obtenemos un valor de R-cuadrado de 0.92, que es cercano a 1, por lo que tenemos un modelo excelente. También calcularemos el R-cuadrado para otro modelo más.

El valor de R-cuadrado es más bajo ya que el modelo subajusta ligeramente los datos.

R-cuadrado en Python

La clase sm.OLS calcula el valor de R-cuadrado por nosotros. Podemos encontrarlo en la tabla summary() aquí.

R-cuadrado varía de 0 a 1, y un valor más alto es mejor (a menos que el modelo sobreajuste). La salida de summary() de sm.OLS incluye la puntuación de R-cuadrado.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 5.26

bookR-cuadrado

Desliza para mostrar el menú

¿Qué es R-cuadrado?

Ya hemos cubierto MSE, RMSE y MAE. Estas métricas ayudan a comparar modelos, pero un solo valor es difícil de evaluar sin contexto. Puede que no se sepa si el valor es "suficientemente bueno" para el conjunto de datos.

R-cuadrado resuelve esto midiendo cuánta varianza del objetivo explica el modelo. Su valor varía de 0 a 1, lo que facilita la interpretación.

El problema es que no podemos calcular la varianza explicada de inmediato. Pero sí podemos calcular la varianza no explicada, así que transformaremos la ecuación anterior a:

Varianza total

La varianza total es simplemente la varianza del objetivo, y podemos calcular la varianza del objetivo utilizando la fórmula de varianza muestral de Estadística ( es la media del objetivo):

En el ejemplo, las diferencias entre los valores reales y la media del objetivo (líneas naranjas) se elevan al cuadrado y se suman, luego se dividen por m−1, lo que da una varianza total de 11.07.

Varianza no explicada

A continuación, calculamos la varianza que el modelo no explica. Si las predicciones fueran perfectas, todos los puntos estarían exactamente sobre la línea de regresión. Calculamos la misma fórmula de varianza, pero reemplazamos por los valores predichos.

Aquí tienes un ejemplo con visualización:

Ahora sabemos todo lo necesario para calcular el R-cuadrado:

Obtenemos un valor de R-cuadrado de 0.92, que es cercano a 1, por lo que tenemos un modelo excelente. También calcularemos el R-cuadrado para otro modelo más.

El valor de R-cuadrado es más bajo ya que el modelo subajusta ligeramente los datos.

R-cuadrado en Python

La clase sm.OLS calcula el valor de R-cuadrado por nosotros. Podemos encontrarlo en la tabla summary() aquí.

R-cuadrado varía de 0 a 1, y un valor más alto es mejor (a menos que el modelo sobreajuste). La salida de summary() de sm.OLS incluye la puntuación de R-cuadrado.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3
some-alt