Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Iteración Generalizada de Políticas
En los capítulos anteriores, aprendiste sobre la evaluación de políticas y la mejora de políticas. Estos procesos se complementan entre sí y se combinan de forma natural en un marco conocido como iteración generalizada de políticas.
La iteración generalizada de políticas (GPI) es un marco en el que la evaluación de políticas y la mejora de políticas interactúan de manera iterativa con el objetivo común de determinar una política óptima.
La mayoría de los métodos de aprendizaje por refuerzo pueden describirse dentro del marco de la GPI. Las principales diferencias entre estos métodos provienen de las implementaciones específicas de la evaluación y mejora de políticas, así como de la naturaleza de sus interacciones.
Interacción entre dos procesos
La evaluación de la política y la mejora de la política pueden considerarse procesos tanto cooperativos como competitivos, según la perspectiva:
- Cooperativo: ambos procesos trabajan hacia un objetivo común: encontrar la política y función de valor óptimas. La evaluación de la política estima la función de valor para una política dada, mientras que la mejora de la política refina la política basándose en estas estimaciones;
- Competitivo: cada proceso tiene objetivos en conflicto. La evaluación de la política busca estimar con precisión la función de valor para la política actual, lo que a menudo provoca que la política deje de ser codiciosa. Por el contrario, la mejora de la política ajusta la política para que sea codiciosa con respecto a las estimaciones actuales de la función de valor, lo que normalmente hace que dichas estimaciones sean incorrectas. Esta constante dinámica continúa hasta que tanto la política como la función de valor convergen a sus formas óptimas.
Resumen
La iteración de política generalizada es un marco útil para comprender cómo los diferentes métodos de aprendizaje por refuerzo abordan la resolución de los MDP. En los próximos capítulos, explorarás cómo estas ideas pueden aplicarse para crear dos métodos esenciales de programación dinámica: iteración de política e iteración de valores.
¡Gracias por tus comentarios!