Aprende Q-Learning: Aprendizaje TD Fuera de Política | Aprendizaje por Diferencia Temporal

Aprender una política óptima con SARSA puede ser complicado. De manera similar al control Monte Carlo en política, normalmente requiere una disminución gradual de $\varepsilon$ con el tiempo, acercándose finalmente a cero para pasar de la exploración a la explotación. Este proceso suele ser lento y puede requerir un tiempo de entrenamiento extenso. Una alternativa es utilizar un método fuera de política como Q-learning.

Definición

Q-learning es un algoritmo de control TD fuera de política utilizado para estimar la función de valor de acción óptima $q_*(s, a)$ . Actualiza sus estimaciones en función de la mejor acción actual, lo que lo convierte en un algoritmo fuera de política.

Regla de actualización

A diferencia del control Monte Carlo fuera de política, Q-learning no requiere muestreo de importancia para corregir las diferencias entre las políticas de comportamiento y objetivo. En su lugar, se basa en una regla de actualización directa que se asemeja mucho a SARSA, pero con una diferencia clave.

La regla de actualización de Q-learning es:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

La única diferencia con SARSA está en el valor objetivo. En lugar de usar el valor de la siguiente acción realmente tomada, como hace SARSA:

\gamma Q(S_{t+1}, A_{t+1})

Q-learning utiliza el valor de la mejor acción posible siguiente:

\gamma \max_a Q(S_{t+1}, a)

Este cambio sutil tiene un gran impacto: permite que Q-learning evalúe las acciones usando una estimación de la política óptima, incluso mientras el agente sigue explorando. Eso es lo que lo convierte en un método fuera de política: aprende sobre la política codiciosa, independientemente de las acciones elegidas durante el entrenamiento.

¿Cuándo utilizar Q-learning?

Q-learning es preferible cuando:

Se trabaja con entornos deterministas, o entornos;
Se necesita una mayor velocidad de convergencia.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 4

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Desliza para mostrar el menú