Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Descenso por Gradiente | Análisis Matemático
Matemáticas para Ciencia de Datos

bookDescenso por Gradiente

Note
Definición

Descenso por Gradiente es un algoritmo de optimización que minimiza una función ajustando iterativamente sus parámetros en la dirección de mayor descenso. Es fundamental en el aprendizaje automático, ya que permite que los modelos aprendan de manera eficiente a partir de los datos.

Comprensión de los Gradientes

El gradiente de una función representa la dirección y pendiente de la función en un punto dado. Indica hacia dónde moverse para minimizar la función.

Para una función simple:

J(θ)=θ2J(\theta) = \theta^2

La derivada (gradiente) es:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Esto significa que para cualquier valor de θθ, el gradiente indica cómo ajustar θθ para descender hacia el mínimo.

Fórmula del Descenso por Gradiente

La regla de actualización de pesos es:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Donde:

  • θ\theta - parámetro del modelo;
  • α\alpha - tasa de aprendizaje (tamaño del paso);
  • J(θ)\nabla J(\theta) - gradiente de la función que se desea minimizar.

Para nuestra función:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Esto significa que actualizamos θθ iterativamente restando el gradiente escalado.

Movimiento paso a paso – Un ejemplo visual

Ejemplo con valores iniciales: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Después de algunas iteraciones, nos acercamos a θ=0θ=0, el mínimo.

Tasa de aprendizaje – Elección adecuada de α

  • Demasiado grande  α\ \alpha - sobrepasa, nunca converge;
  • Demasiado pequeña  α\ \alpha - converge demasiado lento;
  • Óptima  α\ \alpha - equilibra velocidad y precisión.

¿Cuándo se detiene el descenso por gradiente?

El descenso por gradiente se detiene cuando:

J(θ)0\nabla J (\theta) \approx 0

Esto significa que las actualizaciones posteriores son insignificantes y se ha encontrado un mínimo.

question mark

Si el gradiente J(θ)∇J(θ) es cero, ¿qué significa esto?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 9

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 1.96

bookDescenso por Gradiente

Desliza para mostrar el menú

Note
Definición

Descenso por Gradiente es un algoritmo de optimización que minimiza una función ajustando iterativamente sus parámetros en la dirección de mayor descenso. Es fundamental en el aprendizaje automático, ya que permite que los modelos aprendan de manera eficiente a partir de los datos.

Comprensión de los Gradientes

El gradiente de una función representa la dirección y pendiente de la función en un punto dado. Indica hacia dónde moverse para minimizar la función.

Para una función simple:

J(θ)=θ2J(\theta) = \theta^2

La derivada (gradiente) es:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Esto significa que para cualquier valor de θθ, el gradiente indica cómo ajustar θθ para descender hacia el mínimo.

Fórmula del Descenso por Gradiente

La regla de actualización de pesos es:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Donde:

  • θ\theta - parámetro del modelo;
  • α\alpha - tasa de aprendizaje (tamaño del paso);
  • J(θ)\nabla J(\theta) - gradiente de la función que se desea minimizar.

Para nuestra función:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Esto significa que actualizamos θθ iterativamente restando el gradiente escalado.

Movimiento paso a paso – Un ejemplo visual

Ejemplo con valores iniciales: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Después de algunas iteraciones, nos acercamos a θ=0θ=0, el mínimo.

Tasa de aprendizaje – Elección adecuada de α

  • Demasiado grande  α\ \alpha - sobrepasa, nunca converge;
  • Demasiado pequeña  α\ \alpha - converge demasiado lento;
  • Óptima  α\ \alpha - equilibra velocidad y precisión.

¿Cuándo se detiene el descenso por gradiente?

El descenso por gradiente se detiene cuando:

J(θ)0\nabla J (\theta) \approx 0

Esto significa que las actualizaciones posteriores son insignificantes y se ha encontrado un mínimo.

question mark

Si el gradiente J(θ)∇J(θ) es cero, ¿qué significa esto?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 9
some-alt