Iteración de Políticas
La idea detrás de la iteración de políticas es simple:
- Tomar una π y v iniciales;
- Utilizar la evaluación de políticas para actualizar v hasta que sea consistente con π;
- Utilizar la mejora de políticas para actualizar π hasta que sea codiciosa con respecto a v;
- Repetir los pasos 2-3 hasta la convergencia.
En este método, no hay actualizaciones parciales:
- Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la mejora de políticas, la política se vuelve codiciosa con respecto a la función de valor.
Pseudocódigo
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 3. Capítulo 7
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
How does policy iteration differ from value iteration?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Iteración de Políticas
Desliza para mostrar el menú
La idea detrás de la iteración de políticas es simple:
- Tomar una π y v iniciales;
- Utilizar la evaluación de políticas para actualizar v hasta que sea consistente con π;
- Utilizar la mejora de políticas para actualizar π hasta que sea codiciosa con respecto a v;
- Repetir los pasos 2-3 hasta la convergencia.
En este método, no hay actualizaciones parciales:
- Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la mejora de políticas, la política se vuelve codiciosa con respecto a la función de valor.
Pseudocódigo
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 3. Capítulo 7