Descenso por Gradiente
Descenso por Gradiente es un algoritmo de optimización que minimiza una función ajustando iterativamente sus parámetros en la dirección de mayor descenso. Es fundamental en el aprendizaje automático, ya que permite que los modelos aprendan de manera eficiente a partir de los datos.
Comprensión de los Gradientes
El gradiente de una función representa la dirección y pendiente de la función en un punto dado. Indica hacia dónde moverse para minimizar la función.
Para una función simple:
J(θ)=θ2La derivada (gradiente) es:
∇J(θ)=dθd(θ2)=2θEsto significa que para cualquier valor de θ, el gradiente indica cómo ajustar θ para descender hacia el mínimo.
Fórmula del Descenso por Gradiente
La regla de actualización de pesos es:
θ←θ−α∇J(θ)Donde:
- θ - parámetro del modelo;
- α - tasa de aprendizaje (tamaño del paso);
- ∇J(θ) - gradiente de la función que se desea minimizar.
Para nuestra función:
θnew=θold−α(2θold)Esto significa que actualizamos θ iterativamente restando el gradiente escalado.
Movimiento paso a paso – Un ejemplo visual
Ejemplo con valores iniciales: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Después de algunas iteraciones, nos acercamos a θ=0, el mínimo.
Tasa de aprendizaje – Elección adecuada de α
- Demasiado grande α - sobrepasa, nunca converge;
- Demasiado pequeña α - converge demasiado lento;
- Óptima α - equilibra velocidad y precisión.
¿Cuándo se detiene el descenso por gradiente?
El descenso por gradiente se detiene cuando:
∇J(θ)≈0Esto significa que las actualizaciones posteriores son insignificantes y se ha encontrado un mínimo.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 1.96
Descenso por Gradiente
Desliza para mostrar el menú
Descenso por Gradiente es un algoritmo de optimización que minimiza una función ajustando iterativamente sus parámetros en la dirección de mayor descenso. Es fundamental en el aprendizaje automático, ya que permite que los modelos aprendan de manera eficiente a partir de los datos.
Comprensión de los Gradientes
El gradiente de una función representa la dirección y pendiente de la función en un punto dado. Indica hacia dónde moverse para minimizar la función.
Para una función simple:
J(θ)=θ2La derivada (gradiente) es:
∇J(θ)=dθd(θ2)=2θEsto significa que para cualquier valor de θ, el gradiente indica cómo ajustar θ para descender hacia el mínimo.
Fórmula del Descenso por Gradiente
La regla de actualización de pesos es:
θ←θ−α∇J(θ)Donde:
- θ - parámetro del modelo;
- α - tasa de aprendizaje (tamaño del paso);
- ∇J(θ) - gradiente de la función que se desea minimizar.
Para nuestra función:
θnew=θold−α(2θold)Esto significa que actualizamos θ iterativamente restando el gradiente escalado.
Movimiento paso a paso – Un ejemplo visual
Ejemplo con valores iniciales: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Después de algunas iteraciones, nos acercamos a θ=0, el mínimo.
Tasa de aprendizaje – Elección adecuada de α
- Demasiado grande α - sobrepasa, nunca converge;
- Demasiado pequeña α - converge demasiado lento;
- Óptima α - equilibra velocidad y precisión.
¿Cuándo se detiene el descenso por gradiente?
El descenso por gradiente se detiene cuando:
∇J(θ)≈0Esto significa que las actualizaciones posteriores son insignificantes y se ha encontrado un mínimo.
¡Gracias por tus comentarios!