Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende SARSA: Aprendizaje TD en Política | Aprendizaje por Diferencia Temporal
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
SARSA: Aprendizaje TD en Política

Al igual que con los métodos de Monte Carlo, podemos seguir el marco de iteración de política generalizada (GPI) para pasar de estimar funciones de valor a aprender políticas óptimas. Sin embargo, este proceso introduce un desafío conocido: el dilema entre exploración y explotación. De manera similar, existen dos enfoques que podemos utilizar: on-policy y off-policy. Primero, hablemos del método on-policySARSA.

Note
Definición

SARSA es un algoritmo de control TD on-policy utilizado para estimar la función de valor de acción qπ(s,a)q_\pi(s, a). Actualiza sus estimaciones basándose en la acción realmente tomada, lo que lo convierte en un algoritmo on-policy.

El acrónimo SARSA proviene de los cinco componentes clave utilizados en la actualización:

  • S: estado actual StS_t;
  • A: acción tomada AtA_t;
  • R: recompensa recibida Rt+1R_{t+1};
  • S: siguiente estado St+1S_{t+1};
  • A: siguiente acción At+1A_{t+1}.

Regla de actualización

La regla de actualización es similar a TD(0), solo que reemplaza la función de valor de estado por la función de valor de acción:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

El At+1A_{t+1} es la acción que realmente se tomará en el siguiente paso, y se selecciona de acuerdo con la política actual. Esto significa que los efectos de la exploración se incorporan en el proceso de aprendizaje.

Después de cada actualización de la función de valor de acción, la política también se actualiza, permitiendo que el agente utilice inmediatamente las nuevas estimaciones.

Pseudocódigo

¿Cuándo usar SARSA?

SARSA es preferible cuando:

  • Se trabaja con entornos de alta estocasticidad (por ejemplo, superficies resbaladizas, transiciones poco fiables);
  • Se acepta una convergencia más lenta a cambio de un comportamiento más seguro durante el aprendizaje.
question mark

¿En qué escenario es particularmente preferible SARSA?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
SARSA: Aprendizaje TD en Política

Al igual que con los métodos de Monte Carlo, podemos seguir el marco de iteración de política generalizada (GPI) para pasar de estimar funciones de valor a aprender políticas óptimas. Sin embargo, este proceso introduce un desafío conocido: el dilema entre exploración y explotación. De manera similar, existen dos enfoques que podemos utilizar: on-policy y off-policy. Primero, hablemos del método on-policySARSA.

Note
Definición

SARSA es un algoritmo de control TD on-policy utilizado para estimar la función de valor de acción qπ(s,a)q_\pi(s, a). Actualiza sus estimaciones basándose en la acción realmente tomada, lo que lo convierte en un algoritmo on-policy.

El acrónimo SARSA proviene de los cinco componentes clave utilizados en la actualización:

  • S: estado actual StS_t;
  • A: acción tomada AtA_t;
  • R: recompensa recibida Rt+1R_{t+1};
  • S: siguiente estado St+1S_{t+1};
  • A: siguiente acción At+1A_{t+1}.

Regla de actualización

La regla de actualización es similar a TD(0), solo que reemplaza la función de valor de estado por la función de valor de acción:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

El At+1A_{t+1} es la acción que realmente se tomará en el siguiente paso, y se selecciona de acuerdo con la política actual. Esto significa que los efectos de la exploración se incorporan en el proceso de aprendizaje.

Después de cada actualización de la función de valor de acción, la política también se actualiza, permitiendo que el agente utilice inmediatamente las nuevas estimaciones.

Pseudocódigo

¿Cuándo usar SARSA?

SARSA es preferible cuando:

  • Se trabaja con entornos de alta estocasticidad (por ejemplo, superficies resbaladizas, transiciones poco fiables);
  • Se acepta una convergencia más lenta a cambio de un comportamiento más seguro durante el aprendizaje.
question mark

¿En qué escenario es particularmente preferible SARSA?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 3
some-alt