Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele SARSA: On-Policy TD -Oppiminen | Aikaisen Eron Oppiminen
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
SARSA: On-Policy TD -Oppiminen

Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvotoimintojen arvioinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyväksikäytön välinen kompromissi. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Keskitytään ensin on-policy-menetelmään — SARSA.

Note
Määritelmä

SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvofunktion qπ(s,a)q_\pi(s, a) arvioimiseen. Se päivittää arvionsa todellisuudessa suoritetun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.

Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:

  • S: nykyinen tila StS_t;
  • A: suoritettu toiminto AtA_t;
  • R: saatu palkkio Rt+1R_{t+1};
  • S: seuraava tila St+1S_{t+1};
  • A: seuraava toiminto At+1A_{t+1}.

Päivityssääntö

Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvofunktion sijaan käytetään toimintojen arvofunktiota:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Tässä At+1A_{t+1} on seuraavalla askeleella todellisuudessa suoritettava toiminto, joka valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.

Jokaisen toimintojen arvofunktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.

Pseudokoodi

Milloin käyttää SARSA:a?

SARSA on suositeltava, kun:

  • Olosuhteissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
  • Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.
question mark

Missä tilanteessa SARSA on erityisen suositeltava?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
SARSA: On-Policy TD -Oppiminen

Aivan kuten Monte Carlo -menetelmien kanssa, voimme noudattaa yleistetyn politiikan iteroinnin (GPI) viitekehystä siirtyäksemme arvotoimintojen arvioinnista optimaalisten politiikkojen oppimiseen. Tämä prosessi tuo kuitenkin mukanaan tutun haasteen: etsinnän ja hyväksikäytön välinen kompromissi. Samoin on olemassa kaksi lähestymistapaa: on-policy ja off-policy. Keskitytään ensin on-policy-menetelmään — SARSA.

Note
Määritelmä

SARSA on on-policy TD-ohjausalgoritmi, jota käytetään toimintojen arvofunktion qπ(s,a)q_\pi(s, a) arvioimiseen. Se päivittää arvionsa todellisuudessa suoritetun toiminnon perusteella, mikä tekee siitä on-policy-algoritmin.

Lyhenne SARSA muodostuu viidestä päivityksessä käytetystä keskeisestä osasta:

  • S: nykyinen tila StS_t;
  • A: suoritettu toiminto AtA_t;
  • R: saatu palkkio Rt+1R_{t+1};
  • S: seuraava tila St+1S_{t+1};
  • A: seuraava toiminto At+1A_{t+1}.

Päivityssääntö

Päivityssääntö muistuttaa TD(0)-menetelmää, mutta tilan arvofunktion sijaan käytetään toimintojen arvofunktiota:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Tässä At+1A_{t+1} on seuraavalla askeleella todellisuudessa suoritettava toiminto, joka valitaan nykyisen politiikan mukaisesti. Tämä tarkoittaa, että tutkimisen vaikutukset sisällytetään oppimisprosessiin.

Jokaisen toimintojen arvofunktion päivityksen jälkeen politiikka päivitetään myös, jolloin agentti voi välittömästi hyödyntää uusia arvioita.

Pseudokoodi

Milloin käyttää SARSA:a?

SARSA on suositeltava, kun:

  • Olosuhteissa on paljon stokastisuutta (esim. liukkaat pinnat, epäluotettavat siirtymät);
  • Hitaampi konvergenssi on hyväksyttävää turvallisemman oppimiskäyttäytymisen vuoksi.
question mark

Missä tilanteessa SARSA on erityisen suositeltava?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 3
some-alt