SARSA: On-Policy TD -Oppiminen
Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvotoimintojen arvioinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyväksikäytön välinen kompromissi. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Keskitytään ensin on-policy-menetelmään — SARSA.
SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvofunktion qπ(s,a) arvioimiseen. Se päivittää arvionsa todellisuudessa suoritetun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.
Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:
- S: nykyinen tila St;
- A: suoritettu toiminto At;
- R: saatu palkkio Rt+1;
- S: seuraava tila St+1;
- A: seuraava toiminto At+1.
Päivityssääntö
Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvofunktion sijaan käytetään toimintojen arvofunktiota:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Tässä At+1 on seuraavalla askeleella todellisuudessa suoritettava toiminto, joka valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.
Jokaisen toimintojen arvofunktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.
Pseudokoodi
Milloin käyttää SARSA:a?
SARSA on suositeltava, kun:
- Olosuhteissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
- Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD -Oppiminen
Pyyhkäise näyttääksesi valikon
Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvotoimintojen arvioinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyväksikäytön välinen kompromissi. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Keskitytään ensin on-policy-menetelmään — SARSA.
SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvofunktion qπ(s,a) arvioimiseen. Se päivittää arvionsa todellisuudessa suoritetun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.
Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:
- S: nykyinen tila St;
- A: suoritettu toiminto At;
- R: saatu palkkio Rt+1;
- S: seuraava tila St+1;
- A: seuraava toiminto At+1.
Päivityssääntö
Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvofunktion sijaan käytetään toimintojen arvofunktiota:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Tässä At+1 on seuraavalla askeleella todellisuudessa suoritettava toiminto, joka valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.
Jokaisen toimintojen arvofunktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.
Pseudokoodi
Milloin käyttää SARSA:a?
SARSA on suositeltava, kun:
- Olosuhteissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
- Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.
Kiitos palautteestasi!