Aprende Iteración Generalizada de Políticas

En capítulos anteriores, se estudió la evaluación de políticas y la mejora de políticas. Estos procesos se complementan y se combinan de forma natural en un marco conocido como iteración generalizada de políticas.

Definición

La iteración generalizada de políticas (GPI) es un marco en el que la evaluación de políticas y la mejora de políticas interactúan de manera iterativa con el objetivo común de determinar una política óptima.

La mayoría de los métodos de aprendizaje por refuerzo pueden describirse dentro del marco de la GPI. Las diferencias clave entre estos métodos provienen de las implementaciones específicas de la evaluación y mejora de políticas, así como de la naturaleza de sus interacciones.

Interacción entre dos procesos

La evaluación de la política y la mejora de la política pueden considerarse procesos tanto cooperativos como competitivos, según la perspectiva:

Cooperativo: ambos procesos trabajan hacia un objetivo común: encontrar la política y función de valor óptimas. La evaluación de la política estima la función de valor para una política dada, mientras que la mejora de la política refina la política basándose en estas estimaciones;
Competitivo: cada proceso tiene objetivos en conflicto. La evaluación de la política busca estimar con precisión la función de valor para la política actual, lo que a menudo provoca que la política deje de ser codiciosa. Por el contrario, la mejora de la política ajusta la política para que sea codiciosa con respecto a las estimaciones actuales de la función de valor, lo que normalmente hace que dichas estimaciones sean incorrectas. Esta constante dinámica de fuerzas continúa hasta que tanto la política como la función de valor convergen a sus formas óptimas.

Resumen

La iteración de política generalizada es un marco útil para comprender cómo los diferentes métodos de aprendizaje por refuerzo abordan la resolución de los MDP. En los próximos capítulos, explorará cómo estas ideas pueden aplicarse para crear dos métodos esenciales de programación dinámica: iteración de política e iteración de valores.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Desliza para mostrar el menú