Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
SARSA: On-Policy TD -Oppiminen
Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvotoimintojen arvioinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyväksikäytön välinen kompromissi. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Keskitytään ensin on-policy-menetelmään — SARSA.
SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvofunktion arvioimiseen. Se päivittää arvionsa todellisuudessa suoritetun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.
Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:
- S: nykyinen tila ;
- A: suoritettu toiminto ;
- R: saatu palkkio ;
- S: seuraava tila ;
- A: seuraava toiminto .
Päivityssääntö
Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvofunktion sijaan käytetään toimintojen arvofunktiota:
Tässä on seuraavalla askeleella todellisuudessa suoritettava toiminto, joka valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.
Jokaisen toimintojen arvofunktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.
Pseudokoodi
Milloin käyttää SARSA:a?
SARSA on suositeltava, kun:
- Olosuhteissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
- Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.
Kiitos palautteestasi!