Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Iteración de Valores | Programación Dinámica
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Iteración de Valores

Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica un paso separado de evaluación de políticas. Cuando la evaluación de políticas se realiza de manera iterativa, requiere múltiples recorridos sobre todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.

Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de políticas y la mejora de políticas en un solo paso. Este método actualiza directamente la función de valor hasta que converge a la función de valor óptima. Una vez alcanzada la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.

¿Cómo funciona?

La iteración de valores funciona realizando solo una actualización durante la evaluación de políticas, antes de proceder a la mejora de políticas. Esto da lugar a la siguiente fórmula de actualización:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Al convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación de políticas y la mejora de políticas se combinan en un solo paso.

Pseudocódigo

question mark

Según el pseudocódigo, ¿cuándo se detiene la iteración de valores?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 8

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Iteración de Valores

Aunque la iteración de políticas es un enfoque eficaz para resolver MDPs, presenta una desventaja significativa: cada iteración implica un paso separado de evaluación de políticas. Cuando la evaluación de políticas se realiza de manera iterativa, requiere múltiples recorridos sobre todo el espacio de estados, lo que genera una sobrecarga computacional considerable y tiempos de cálculo más prolongados.

Una buena alternativa es la iteración de valores, un método que fusiona la evaluación de políticas y la mejora de políticas en un solo paso. Este método actualiza directamente la función de valor hasta que converge a la función de valor óptima. Una vez alcanzada la convergencia, la política óptima puede derivarse directamente de esta función de valor óptima.

¿Cómo funciona?

La iteración de valores funciona realizando solo una actualización durante la evaluación de políticas, antes de proceder a la mejora de políticas. Esto da lugar a la siguiente fórmula de actualización:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Al convertir la ecuación de optimalidad de Bellman en una regla de actualización, la evaluación de políticas y la mejora de políticas se combinan en un solo paso.

Pseudocódigo

question mark

Según el pseudocódigo, ¿cuándo se detiene la iteración de valores?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 8
some-alt