Iteración de Políticas
La idea detrás de la iteración de políticas es simple:
- Tomar una π y v iniciales;
- Utilizar la evaluación de políticas para actualizar v hasta que sea consistente con π;
- Utilizar la mejora de políticas para actualizar π hasta que sea codiciosa con respecto a v;
- Repetir los pasos 2-3 hasta la convergencia.
En este método, no hay actualizaciones parciales:
- Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la mejora de políticas, la política se vuelve codiciosa con respecto a la función de valor.
Pseudocódigo
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 3. Capítulo 7
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
Iteración de Políticas
Desliza para mostrar el menú
La idea detrás de la iteración de políticas es simple:
- Tomar una π y v iniciales;
- Utilizar la evaluación de políticas para actualizar v hasta que sea consistente con π;
- Utilizar la mejora de políticas para actualizar π hasta que sea codiciosa con respecto a v;
- Repetir los pasos 2-3 hasta la convergencia.
En este método, no hay actualizaciones parciales:
- Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la mejora de políticas, la política se vuelve codiciosa con respecto a la función de valor.
Pseudocódigo
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 3. Capítulo 7