Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Iteración de Políticas | Programación Dinámica
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Iteración de Políticas

La idea detrás de la iteración de políticas es simple:

  1. Tomar una π\pi y vv iniciales;
  2. Utilizar la evaluación de políticas para actualizar vv hasta que sea consistente con π\pi;
  3. Utilizar la mejora de políticas para actualizar π\pi hasta que sea codiciosa con respecto a vv;
  4. Repetir los pasos 2-3 hasta la convergencia.

En este método, no hay actualizaciones parciales:

  • Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
  • Durante la mejora de políticas, la política se vuelve codiciosa con respecto a la función de valor.

Pseudocódigo

question mark

Según el pseudocódigo, ¿qué condición hace que el ciclo externo de la iteración de políticas se detenga?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 7

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Iteración de Políticas

La idea detrás de la iteración de políticas es simple:

  1. Tomar una π\pi y vv iniciales;
  2. Utilizar la evaluación de políticas para actualizar vv hasta que sea consistente con π\pi;
  3. Utilizar la mejora de políticas para actualizar π\pi hasta que sea codiciosa con respecto a vv;
  4. Repetir los pasos 2-3 hasta la convergencia.

En este método, no hay actualizaciones parciales:

  • Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
  • Durante la mejora de políticas, la política se vuelve codiciosa con respecto a la función de valor.

Pseudocódigo

question mark

Según el pseudocódigo, ¿qué condición hace que el ciclo externo de la iteración de políticas se detenga?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 7
some-alt