SARSA: Aprendizaje TD en Política
Al igual que con los métodos de Monte Carlo, podemos seguir el marco de iteración de política generalizada (GPI) para pasar de estimar funciones de valor a aprender políticas óptimas. Sin embargo, este proceso introduce un desafío conocido: el dilema entre exploración y explotación. De manera similar, existen dos enfoques que podemos utilizar: on-policy y off-policy. Primero, hablemos del método on-policy — SARSA.
SARSA es un algoritmo de control TD on-policy utilizado para estimar la función de valor de acción qπ(s,a). Actualiza sus estimaciones basándose en la acción realmente tomada, lo que lo convierte en un algoritmo on-policy.
El acrónimo SARSA proviene de los cinco componentes clave utilizados en la actualización:
- S: estado actual St;
- A: acción tomada At;
- R: recompensa recibida Rt+1;
- S: siguiente estado St+1;
- A: siguiente acción At+1.
Regla de actualización
La regla de actualización es similar a TD(0), solo que reemplaza la función de valor de estado por la función de valor de acción:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))El At+1 es la acción que realmente se tomará en el siguiente paso, y se selecciona de acuerdo con la política actual. Esto significa que los efectos de la exploración se incorporan en el proceso de aprendizaje.
Después de cada actualización de la función de valor de acción, la política también se actualiza, permitiendo que el agente utilice inmediatamente las nuevas estimaciones.
Pseudocódigo
¿Cuándo usar SARSA?
SARSA es preferible cuando:
- Se trabaja con entornos de alta estocasticidad (por ejemplo, superficies resbaladizas, transiciones poco fiables);
- Se acepta una convergencia más lenta a cambio de un comportamiento más seguro durante el aprendizaje.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 2.7
SARSA: Aprendizaje TD en Política
Desliza para mostrar el menú
Al igual que con los métodos de Monte Carlo, podemos seguir el marco de iteración de política generalizada (GPI) para pasar de estimar funciones de valor a aprender políticas óptimas. Sin embargo, este proceso introduce un desafío conocido: el dilema entre exploración y explotación. De manera similar, existen dos enfoques que podemos utilizar: on-policy y off-policy. Primero, hablemos del método on-policy — SARSA.
SARSA es un algoritmo de control TD on-policy utilizado para estimar la función de valor de acción qπ(s,a). Actualiza sus estimaciones basándose en la acción realmente tomada, lo que lo convierte en un algoritmo on-policy.
El acrónimo SARSA proviene de los cinco componentes clave utilizados en la actualización:
- S: estado actual St;
- A: acción tomada At;
- R: recompensa recibida Rt+1;
- S: siguiente estado St+1;
- A: siguiente acción At+1.
Regla de actualización
La regla de actualización es similar a TD(0), solo que reemplaza la función de valor de estado por la función de valor de acción:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))El At+1 es la acción que realmente se tomará en el siguiente paso, y se selecciona de acuerdo con la política actual. Esto significa que los efectos de la exploración se incorporan en el proceso de aprendizaje.
Después de cada actualización de la función de valor de acción, la política también se actualiza, permitiendo que el agente utilice inmediatamente las nuevas estimaciones.
Pseudocódigo
¿Cuándo usar SARSA?
SARSA es preferible cuando:
- Se trabaja con entornos de alta estocasticidad (por ejemplo, superficies resbaladizas, transiciones poco fiables);
- Se acepta una convergencia más lenta a cambio de un comportamiento más seguro durante el aprendizaje.
¡Gracias por tus comentarios!