Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Q-Learning: Aprendizaje TD Fuera de Política | Aprendizaje por Diferencia Temporal
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Q-Learning: Aprendizaje TD Fuera de Política

Aprender una política óptima con SARSA puede ser un desafío. De manera similar al control Monte Carlo en política, normalmente requiere una disminución gradual de ε\varepsilon con el tiempo, acercándose finalmente a cero para pasar de la exploración a la explotación. Este proceso suele ser lento y puede requerir un tiempo de entrenamiento extenso. Una alternativa es utilizar un método fuera de política como Q-learning.

Note
Definición

Q-learning es un algoritmo de control TD fuera de política utilizado para estimar la función de valor de acción óptima q(s,a)q_*(s, a). Actualiza sus estimaciones en función de la mejor acción actual, lo que lo convierte en un algoritmo fuera de política.

Regla de actualización

A diferencia del control Monte Carlo fuera de política, Q-learning no requiere muestreo de importancia para corregir las diferencias entre las políticas de comportamiento y objetivo. En su lugar, se basa en una regla de actualización directa que se asemeja mucho a SARSA, pero con una diferencia clave.

La regla de actualización de Q-learning es:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

La única diferencia con SARSA está en el valor objetivo. En lugar de usar el valor de la siguiente acción realmente tomada, como hace SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utiliza el valor de la mejor acción posible siguiente:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Este cambio sutil tiene un gran impacto: permite que Q-learning evalúe las acciones utilizando una estimación de la política óptima, incluso mientras el agente sigue explorando. Eso es lo que lo convierte en un método fuera de política: aprende sobre la política codiciosa, independientemente de las acciones elegidas durante el entrenamiento.

¿Cuándo usar Q-learning?

Q-learning es preferible cuando:

  • Se trabaja con entornos deterministas, o entornos;
  • Se requiere una mayor velocidad de convergencia.
question mark

¿Qué distingue a Q-learning como un algoritmo fuera de política?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 4

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Q-Learning: Aprendizaje TD Fuera de Política

Aprender una política óptima con SARSA puede ser un desafío. De manera similar al control Monte Carlo en política, normalmente requiere una disminución gradual de ε\varepsilon con el tiempo, acercándose finalmente a cero para pasar de la exploración a la explotación. Este proceso suele ser lento y puede requerir un tiempo de entrenamiento extenso. Una alternativa es utilizar un método fuera de política como Q-learning.

Note
Definición

Q-learning es un algoritmo de control TD fuera de política utilizado para estimar la función de valor de acción óptima q(s,a)q_*(s, a). Actualiza sus estimaciones en función de la mejor acción actual, lo que lo convierte en un algoritmo fuera de política.

Regla de actualización

A diferencia del control Monte Carlo fuera de política, Q-learning no requiere muestreo de importancia para corregir las diferencias entre las políticas de comportamiento y objetivo. En su lugar, se basa en una regla de actualización directa que se asemeja mucho a SARSA, pero con una diferencia clave.

La regla de actualización de Q-learning es:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

La única diferencia con SARSA está en el valor objetivo. En lugar de usar el valor de la siguiente acción realmente tomada, como hace SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utiliza el valor de la mejor acción posible siguiente:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Este cambio sutil tiene un gran impacto: permite que Q-learning evalúe las acciones utilizando una estimación de la política óptima, incluso mientras el agente sigue explorando. Eso es lo que lo convierte en un método fuera de política: aprende sobre la política codiciosa, independientemente de las acciones elegidas durante el entrenamiento.

¿Cuándo usar Q-learning?

Q-learning es preferible cuando:

  • Se trabaja con entornos deterministas, o entornos;
  • Se requiere una mayor velocidad de convergencia.
question mark

¿Qué distingue a Q-learning como un algoritmo fuera de política?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 4
some-alt