Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
SARSA: Aprendizaje TD en Política
Al igual que con los métodos de Monte Carlo, podemos seguir el marco de iteración de política generalizada (GPI) para pasar de estimar funciones de valor a aprender políticas óptimas. Sin embargo, este proceso introduce un desafío conocido: el dilema entre exploración y explotación. De manera similar, existen dos enfoques que podemos utilizar: on-policy y off-policy. Primero, hablemos del método on-policy — SARSA.
SARSA es un algoritmo de control TD on-policy utilizado para estimar la función de valor de acción . Actualiza sus estimaciones basándose en la acción realmente tomada, lo que lo convierte en un algoritmo on-policy.
El acrónimo SARSA proviene de los cinco componentes clave utilizados en la actualización:
- S: estado actual ;
- A: acción tomada ;
- R: recompensa recibida ;
- S: siguiente estado ;
- A: siguiente acción .
Regla de actualización
La regla de actualización es similar a TD(0), solo que reemplaza la función de valor de estado por la función de valor de acción:
El es la acción que realmente se tomará en el siguiente paso, y se selecciona de acuerdo con la política actual. Esto significa que los efectos de la exploración se incorporan en el proceso de aprendizaje.
Después de cada actualización de la función de valor de acción, la política también se actualiza, permitiendo que el agente utilice inmediatamente las nuevas estimaciones.
Pseudocódigo
¿Cuándo usar SARSA?
SARSA es preferible cuando:
- Se trabaja con entornos de alta estocasticidad (por ejemplo, superficies resbaladizas, transiciones poco fiables);
- Se acepta una convergencia más lenta a cambio de un comportamiento más seguro durante el aprendizaje.
¡Gracias por tus comentarios!