Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Encontrar los Parámetros | Regresión Logística
Clasificación con Python

Encontrar los Parámetros

Desliza para mostrar el menú

La regresión logística solo requiere que la computadora aprenda los mejores parámetros ββ. Para ello, necesitamos definir qué significa "mejores parámetros". Recordemos cómo funciona el modelo: predice la pp - probabilidad de pertenecer a la clase 1:

p=σ(z)=σ(β0+β1x1+...)p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Donde

σ(z)=11+ez\sigma (z) = \frac{1}{1 + e^{-z}}

Evidentemente, el modelo con buenos parámetros es aquel que predice una pp alta (cercana a 1) para instancias que realmente pertenecen a la clase 1 y una pp baja (cercana a 0) para instancias cuya clase real es 0.

modelo de regresión logística bueno y malo

Para medir qué tan bueno o malo es el modelo, se utiliza una función de costo. En la regresión lineal, se utilizó MSE (error cuadrático medio) como función de costo. En este caso, se emplea una función diferente:

cost

Aquí, pp representa la probabilidad de pertenecer a la clase 1, según lo predicho por el modelo, mientras que yy denota el valor real objetivo.

Esta función no solo penaliza las predicciones incorrectas, sino que también considera la confianza del modelo en sus predicciones. Como se ilustra en la imagen anterior, cuando el valor de pp se aproxima a yy (el valor objetivo real), la función de costo permanece relativamente baja, lo que indica que el modelo seleccionó con confianza la clase correcta. Por el contrario, si la predicción es incorrecta, la función de costo aumenta exponencialmente a medida que crece la confianza del modelo en la clase incorrecta.

bueno malo costo lr

En el contexto de la clasificación binaria con una función sigmoide, la función de costo utilizada se denomina específicamente pérdida de entropía cruzada binaria, como se mostró anteriormente. Es importante señalar que también existe una forma general conocida como pérdida de entropía cruzada (o entropía cruzada categórica) utilizada para problemas de clasificación multiclase.

La pérdida de entropía cruzada categórica para una sola instancia de entrenamiento se calcula de la siguiente manera:

Categorical Cross-Entropy Loss=i=1Cyilog(pi)\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Donde

  • CC es el número de clases;
  • yiy_i es el valor objetivo real (1 si la clase es la correcta, 0 en caso contrario);
  • pip_i es la probabilidad predicha de que la instancia pertenezca a la clase ii.

Se calcula la función de pérdida para cada instancia de entrenamiento y se toma el promedio. Este promedio se denomina función de costo. La regresión logística encuentra los parámetros β\beta que minimizan la función de costo.

Sigmoide2
question mark

¿Cuál de estos se utiliza como función de pérdida en tareas de clasificación?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 2. Capítulo 2
some-alt