Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Iteración de Políticas
La idea detrás de la iteración de políticas es simple:
- Tomar una y iniciales;
- Utilizar la evaluación de políticas para actualizar hasta que sea consistente con ;
- Utilizar la mejora de políticas para actualizar hasta que sea codiciosa con respecto a ;
- Repetir los pasos 2-3 hasta la convergencia.
En este método, no hay actualizaciones parciales:
- Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la mejora de políticas, la política se vuelve codiciosa con respecto a la función de valor.
Pseudocódigo
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 3. Capítulo 7