Aprende Descenso por Gradiente | Análisis Matemático

Definición

Descenso por Gradiente es un algoritmo de optimización que minimiza una función ajustando iterativamente sus parámetros en la dirección de mayor descenso. Es fundamental en el aprendizaje automático, ya que permite que los modelos aprendan de manera eficiente a partir de los datos.

Comprensión de los Gradientes

El gradiente de una función representa la dirección y pendiente de la función en un punto dado. Indica hacia dónde moverse para minimizar la función.

Para una función simple:

J(\theta) = \theta^2

La derivada (gradiente) es:

\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Esto significa que para cualquier valor de $θ$ , el gradiente indica cómo ajustar $θ$ para descender hacia el mínimo.

Fórmula del Descenso por Gradiente

La regla de actualización de pesos es:

\theta \larr \theta - \alpha \nabla J(\theta)

Donde:

$\theta$ - parámetro del modelo;
$\alpha$ - tasa de aprendizaje (tamaño del paso);
$\nabla J(\theta)$ - gradiente de la función que se desea minimizar.

Para nuestra función:

\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Esto significa que actualizamos $θ$ iterativamente restando el gradiente escalado.

Movimiento paso a paso – Un ejemplo visual

Ejemplo con valores iniciales: $\theta = 3$ , $\alpha = 0.3$

$\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;$
$\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;$
$\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;$
$\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.$

Después de algunas iteraciones, nos acercamos a $θ=0$ , el mínimo.

Tasa de aprendizaje – Elección adecuada de α

Demasiado grande $\ \alpha$ - sobrepasa, nunca converge;
Demasiado pequeña $\ \alpha$ - converge demasiado lento;
Óptima $\ \alpha$ - equilibra velocidad y precisión.

¿Cuándo se detiene el descenso por gradiente?

El descenso por gradiente se detiene cuando:

\nabla J (\theta) \approx 0

Esto significa que las actualizaciones posteriores son insignificantes y se ha encontrado un mínimo.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 9

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Desliza para mostrar el menú