Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Iteración Generalizada de Políticas | Programación Dinámica
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Iteración Generalizada de Políticas

En los capítulos anteriores, aprendiste sobre la evaluación de políticas y la mejora de políticas. Estos procesos se complementan entre sí y se combinan de forma natural en un marco conocido como iteración generalizada de políticas.

Note
Definición

La iteración generalizada de políticas (GPI) es un marco en el que la evaluación de políticas y la mejora de políticas interactúan de manera iterativa con el objetivo común de determinar una política óptima.

La mayoría de los métodos de aprendizaje por refuerzo pueden describirse dentro del marco de la GPI. Las principales diferencias entre estos métodos provienen de las implementaciones específicas de la evaluación y mejora de políticas, así como de la naturaleza de sus interacciones.

Interacción entre dos procesos

La evaluación de la política y la mejora de la política pueden considerarse procesos tanto cooperativos como competitivos, según la perspectiva:

  • Cooperativo: ambos procesos trabajan hacia un objetivo común: encontrar la política y función de valor óptimas. La evaluación de la política estima la función de valor para una política dada, mientras que la mejora de la política refina la política basándose en estas estimaciones;
  • Competitivo: cada proceso tiene objetivos en conflicto. La evaluación de la política busca estimar con precisión la función de valor para la política actual, lo que a menudo provoca que la política deje de ser codiciosa. Por el contrario, la mejora de la política ajusta la política para que sea codiciosa con respecto a las estimaciones actuales de la función de valor, lo que normalmente hace que dichas estimaciones sean incorrectas. Esta constante dinámica continúa hasta que tanto la política como la función de valor convergen a sus formas óptimas.

Resumen

La iteración de política generalizada es un marco útil para comprender cómo los diferentes métodos de aprendizaje por refuerzo abordan la resolución de los MDP. En los próximos capítulos, explorarás cómo estas ideas pueden aplicarse para crear dos métodos esenciales de programación dinámica: iteración de política e iteración de valores.

question mark

Selecciona los dos procesos que trabajan conjuntamente en el marco de la iteración de política generalizada

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Iteración Generalizada de Políticas

En los capítulos anteriores, aprendiste sobre la evaluación de políticas y la mejora de políticas. Estos procesos se complementan entre sí y se combinan de forma natural en un marco conocido como iteración generalizada de políticas.

Note
Definición

La iteración generalizada de políticas (GPI) es un marco en el que la evaluación de políticas y la mejora de políticas interactúan de manera iterativa con el objetivo común de determinar una política óptima.

La mayoría de los métodos de aprendizaje por refuerzo pueden describirse dentro del marco de la GPI. Las principales diferencias entre estos métodos provienen de las implementaciones específicas de la evaluación y mejora de políticas, así como de la naturaleza de sus interacciones.

Interacción entre dos procesos

La evaluación de la política y la mejora de la política pueden considerarse procesos tanto cooperativos como competitivos, según la perspectiva:

  • Cooperativo: ambos procesos trabajan hacia un objetivo común: encontrar la política y función de valor óptimas. La evaluación de la política estima la función de valor para una política dada, mientras que la mejora de la política refina la política basándose en estas estimaciones;
  • Competitivo: cada proceso tiene objetivos en conflicto. La evaluación de la política busca estimar con precisión la función de valor para la política actual, lo que a menudo provoca que la política deje de ser codiciosa. Por el contrario, la mejora de la política ajusta la política para que sea codiciosa con respecto a las estimaciones actuales de la función de valor, lo que normalmente hace que dichas estimaciones sean incorrectas. Esta constante dinámica continúa hasta que tanto la política como la función de valor convergen a sus formas óptimas.

Resumen

La iteración de política generalizada es un marco útil para comprender cómo los diferentes métodos de aprendizaje por refuerzo abordan la resolución de los MDP. En los próximos capítulos, explorarás cómo estas ideas pueden aplicarse para crear dos métodos esenciales de programación dinámica: iteración de política e iteración de valores.

question mark

Selecciona los dos procesos que trabajan conjuntamente en el marco de la iteración de política generalizada

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6
some-alt