Aprende SARSA: Aprendizaje TD En Política | Aprendizaje por Diferencia Temporal

Al igual que con los métodos de Monte Carlo, se puede seguir el marco de iteración generalizada de políticas (GPI) para pasar de la estimación de funciones de valor al aprendizaje de políticas óptimas. Sin embargo, este proceso introduce un desafío conocido: la disyuntiva entre exploración y explotación. De manera similar, existen dos enfoques que se pueden utilizar: on-policy y off-policy. Primero, se abordará el método on-policy — SARSA.

Definición

SARSA es un algoritmo de control TD on-policy utilizado para estimar la función de valor de acción $q_\pi(s, a)$ . Actualiza sus estimaciones en función de la acción realmente tomada, lo que lo convierte en un algoritmo on-policy.

El acrónimo SARSA proviene de los cinco componentes clave utilizados en la actualización:

S: estado actual $S_t$ ;
A: acción tomada $A_t$ ;
R: recompensa recibida $R_{t+1}$ ;
S: siguiente estado $S_{t+1}$ ;
A: siguiente acción $A_{t+1}$ .

Regla de actualización

La regla de actualización es similar a TD(0), solo que reemplaza la función de valor de estado por la función de valor de acción:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

El $A_{t+1}$ es la acción que realmente se tomará en el siguiente paso, y se selecciona de acuerdo con la política actual. Esto significa que los efectos de la exploración se incorporan en el proceso de aprendizaje.

Después de cada actualización de la función de valor de acción, la política también se actualiza, permitiendo que el agente utilice inmediatamente las nuevas estimaciones.

Pseudocódigo

¿Cuándo usar SARSA?

SARSA es preferible cuando:

Se trabaja con entornos de alta estocasticidad (por ejemplo, superficies resbaladizas, transiciones poco fiables);
Se acepta una convergencia más lenta a cambio de un comportamiento más seguro durante el aprendizaje.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 5. Capítulo 3

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Desliza para mostrar el menú