Aprende R-cuadrado | Elegir el Mejor Modelo

¿Qué es R-cuadrado?

Ya hemos cubierto MSE, RMSE y MAE. Estas métricas ayudan a comparar modelos, pero un solo valor es difícil de evaluar sin contexto. Puede que no se sepa si el valor es "suficientemente bueno" para el conjunto de datos.

R-cuadrado resuelve esto midiendo cuánta varianza del objetivo explica el modelo. Su valor varía de 0 a 1, lo que facilita la interpretación.

El problema es que no podemos calcular la varianza explicada de inmediato. Pero sí podemos calcular la varianza no explicada, así que transformaremos la ecuación anterior a:

Varianza total

La varianza total es simplemente la varianza del objetivo, y podemos calcular la varianza del objetivo utilizando la fórmula de varianza muestral de Estadística (ȳ es la media del objetivo):

En el ejemplo, las diferencias entre los valores reales y la media del objetivo (líneas naranjas) se elevan al cuadrado y se suman, luego se dividen por m−1, lo que da una varianza total de 11.07.

Varianza no explicada

A continuación, calculamos la varianza que el modelo no explica. Si las predicciones fueran perfectas, todos los puntos estarían exactamente sobre la línea de regresión. Calculamos la misma fórmula de varianza, pero reemplazamos ȳ por los valores predichos.

Aquí tienes un ejemplo con visualización:

Ahora sabemos todo lo necesario para calcular el R-cuadrado:

Obtenemos un valor de R-cuadrado de 0.92, que es cercano a 1, por lo que tenemos un modelo excelente. También calcularemos el R-cuadrado para otro modelo más.

El valor de R-cuadrado es más bajo ya que el modelo subajusta ligeramente los datos.

R-cuadrado en Python

La clase sm.OLS calcula el valor de R-cuadrado por nosotros. Podemos encontrarlo en la tabla summary() aquí.

R-cuadrado varía de 0 a 1, y un valor más alto es mejor (a menos que el modelo sobreajuste). La salida de summary() de sm.OLS incluye la puntuación de R-cuadrado.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain what a good R-squared value is?

How does R-squared compare to MSE, RMSE, and MAE?

Can you show how to interpret R-squared in real-world scenarios?

Desliza para mostrar el menú