SARSA: On-Policy TD -Oppiminen
Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvofunktioiden estimoinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyödyntämisen välinen ristiriita. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Tarkastellaan ensin on-policy-menetelmää — SARSA.
SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvon funktion qπ(s,a) estimointiin. Se päivittää arvionsa todellisuudessa valitun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.
Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:
- S: nykyinen tila St;
- A: suoritettu toiminto At;
- R: saatu palkkio Rt+1;
- S: seuraava tila St+1;
- A: seuraava toiminto At+1.
Päivityssääntö
Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvon funktion sijaan käytetään toimintojen arvon funktiota:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 on toiminto, joka todella suoritetaan seuraavassa askeleessa, ja se valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.
Jokaisen toimintojen arvon funktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.
Pseudokoodi
Milloin käyttää SARSA:a?
SARSA on suositeltava, kun:
- Toimitaan ympäristöissä, joissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
- Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
SARSA: On-Policy TD -Oppiminen
Pyyhkäise näyttääksesi valikon
Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvofunktioiden estimoinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyödyntämisen välinen ristiriita. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Tarkastellaan ensin on-policy-menetelmää — SARSA.
SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvon funktion qπ(s,a) estimointiin. Se päivittää arvionsa todellisuudessa valitun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.
Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:
- S: nykyinen tila St;
- A: suoritettu toiminto At;
- R: saatu palkkio Rt+1;
- S: seuraava tila St+1;
- A: seuraava toiminto At+1.
Päivityssääntö
Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvon funktion sijaan käytetään toimintojen arvon funktiota:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 on toiminto, joka todella suoritetaan seuraavassa askeleessa, ja se valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.
Jokaisen toimintojen arvon funktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.
Pseudokoodi
Milloin käyttää SARSA:a?
SARSA on suositeltava, kun:
- Toimitaan ympäristöissä, joissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
- Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.
Kiitos palautteestasi!