Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Q-Learning: Aprendizaje TD Fuera de Política
Aprender una política óptima con SARSA puede ser un desafío. De manera similar al control Monte Carlo en política, normalmente requiere una disminución gradual de con el tiempo, acercándose finalmente a cero para pasar de la exploración a la explotación. Este proceso suele ser lento y puede requerir un tiempo de entrenamiento extenso. Una alternativa es utilizar un método fuera de política como Q-learning.
Q-learning es un algoritmo de control TD fuera de política utilizado para estimar la función de valor de acción óptima . Actualiza sus estimaciones en función de la mejor acción actual, lo que lo convierte en un algoritmo fuera de política.
Regla de actualización
A diferencia del control Monte Carlo fuera de política, Q-learning no requiere muestreo de importancia para corregir las diferencias entre las políticas de comportamiento y objetivo. En su lugar, se basa en una regla de actualización directa que se asemeja mucho a SARSA, pero con una diferencia clave.
La regla de actualización de Q-learning es:
La única diferencia con SARSA está en el valor objetivo. En lugar de usar el valor de la siguiente acción realmente tomada, como hace SARSA:
Q-learning utiliza el valor de la mejor acción posible siguiente:
Este cambio sutil tiene un gran impacto: permite que Q-learning evalúe las acciones utilizando una estimación de la política óptima, incluso mientras el agente sigue explorando. Eso es lo que lo convierte en un método fuera de política: aprende sobre la política codiciosa, independientemente de las acciones elegidas durante el entrenamiento.
¿Cuándo usar Q-learning?
Q-learning es preferible cuando:
- Se trabaja con entornos deterministas, o entornos;
- Se requiere una mayor velocidad de convergencia.
¡Gracias por tus comentarios!