Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Iteración de Políticas Generalizada | Programación Dinámica
Introducción al Aprendizaje por Refuerzo

bookIteración de Políticas Generalizada

En capítulos anteriores, se estudió la evaluación de políticas y la mejora de políticas. Estos procesos se complementan y se combinan de manera natural en un marco conocido como iteración generalizada de políticas.

Note
Definición

Iteración generalizada de políticas (GPI) es un marco en el que la evaluación de políticas y la mejora de políticas interactúan de manera iterativa con el objetivo común de determinar una política óptima.

La mayoría de los métodos de aprendizaje por refuerzo pueden describirse dentro del marco de la GPI. Las diferencias clave entre estos métodos provienen de las implementaciones específicas de la evaluación y mejora de políticas, así como de la naturaleza de sus interacciones.

Interacción entre dos procesos

La evaluación de políticas y la mejora de políticas pueden considerarse procesos tanto cooperativos como competitivos, dependiendo de la perspectiva:

  • Cooperativo: ambos procesos trabajan hacia un objetivo común: encontrar la política y función de valor óptimas. La evaluación de políticas estima la función de valor para una política dada, mientras que la mejora de políticas refina la política en función de estas estimaciones;
  • Competitivo: cada proceso tiene objetivos en conflicto. La evaluación de políticas busca estimar con precisión la función de valor para la política actual, lo que a menudo provoca que la política deje de ser codiciosa. Por el contrario, la mejora de políticas ajusta la política para que sea codiciosa respecto a las estimaciones actuales de la función de valor, lo que típicamente hace que dichas estimaciones sean incorrectas. Esta constante dinámica de fuerzas continúa hasta que tanto la política como la función de valor convergen a sus formas óptimas.

Resumen

La iteración de política generalizada es un marco útil para comprender cómo diferentes métodos de aprendizaje por refuerzo abordan la resolución de los MDPs. En los próximos capítulos, explorarás cómo estas ideas pueden aplicarse para crear dos métodos esenciales de programación dinámica: iteración de política e iteración de valores.

question mark

Selecciona los dos procesos que trabajan juntos en el marco de la iteración de política generalizada

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Awesome!

Completion rate improved to 2.7

bookIteración de Políticas Generalizada

Desliza para mostrar el menú

En capítulos anteriores, se estudió la evaluación de políticas y la mejora de políticas. Estos procesos se complementan y se combinan de manera natural en un marco conocido como iteración generalizada de políticas.

Note
Definición

Iteración generalizada de políticas (GPI) es un marco en el que la evaluación de políticas y la mejora de políticas interactúan de manera iterativa con el objetivo común de determinar una política óptima.

La mayoría de los métodos de aprendizaje por refuerzo pueden describirse dentro del marco de la GPI. Las diferencias clave entre estos métodos provienen de las implementaciones específicas de la evaluación y mejora de políticas, así como de la naturaleza de sus interacciones.

Interacción entre dos procesos

La evaluación de políticas y la mejora de políticas pueden considerarse procesos tanto cooperativos como competitivos, dependiendo de la perspectiva:

  • Cooperativo: ambos procesos trabajan hacia un objetivo común: encontrar la política y función de valor óptimas. La evaluación de políticas estima la función de valor para una política dada, mientras que la mejora de políticas refina la política en función de estas estimaciones;
  • Competitivo: cada proceso tiene objetivos en conflicto. La evaluación de políticas busca estimar con precisión la función de valor para la política actual, lo que a menudo provoca que la política deje de ser codiciosa. Por el contrario, la mejora de políticas ajusta la política para que sea codiciosa respecto a las estimaciones actuales de la función de valor, lo que típicamente hace que dichas estimaciones sean incorrectas. Esta constante dinámica de fuerzas continúa hasta que tanto la política como la función de valor convergen a sus formas óptimas.

Resumen

La iteración de política generalizada es un marco útil para comprender cómo diferentes métodos de aprendizaje por refuerzo abordan la resolución de los MDPs. En los próximos capítulos, explorarás cómo estas ideas pueden aplicarse para crear dos métodos esenciales de programación dinámica: iteración de política e iteración de valores.

question mark

Selecciona los dos procesos que trabajan juntos en el marco de la iteración de política generalizada

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 6
some-alt