Oppiskele SARSA: On-Policy TD -Oppiminen

Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvofunktioiden estimoinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyväksikäytön välinen kompromissi. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Tarkastellaan ensin on-policy-menetelmää — SARSA.

Määritelmä

SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvofunktion $q_\pi(s, a)$ estimointiin. Se päivittää arvionsa todellisuudessa suoritetun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.

Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:

S: nykyinen tila $S_t$ ;
A: suoritettu toiminto $A_t$ ;
R: saatu palkkio $R_{t+1}$ ;
S: seuraava tila $S_{t+1}$ ;
A: seuraava toiminto $A_{t+1}$ .

Päivityssääntö

Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvon funktion sijaan käytetään toimintojen arvon funktiota:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

$A_{t+1}$ on toiminto, joka todella suoritetaan seuraavassa askeleessa, ja se valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.

Jokaisen toimintojen arvon funktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.

Pseudokoodi

Milloin käyttää SARSA:a?

SARSA on suositeltava, kun:

Olosuhteissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 5. Luku 3

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Pyyhkäise näyttääksesi valikon