Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Q-Oppiminen: Off-Policy TD -Oppiminen | Aikaisen Eron Oppiminen
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Q-Oppiminen: Off-Policy TD -Oppiminen

Optimaalisen politiikan oppiminen SARSA:lla voi olla haastavaa. Samoin kuin on-policy Monte Carlo -ohjauksessa, se vaatii tyypillisesti ε\varepsilon:n asteittaista pienentämistä ajan myötä, lopulta lähestyen nollaa siirtyäkseen tutkimisesta hyödyntämiseen. Tämä prosessi on usein hidas ja saattaa vaatia paljon koulutusaikaa. Vaihtoehtona on käyttää off-policy-menetelmää, kuten Q-learning.

Note
Määritelmä

Q-learning on off-policy TD-ohjausalgoritmi, jota käytetään optimaalisen toimintaarvofunktion q(s,a)q_*(s, a) arvioimiseen. Se päivittää arvioitaan nykyisen parhaan toiminnon perusteella, mikä tekee siitä off-policy-algoritmin.

Päivityssääntö

Toisin kuin off-policy Monte Carlo -ohjauksessa, Q-oppiminen ei vaadi tärkeyspainotusta (importance sampling) käyttäytymis- ja tavoitepolitiikkojen erojen korjaamiseksi. Sen sijaan se perustuu suoraan päivityssääntöön, joka muistuttaa läheisesti SARSAa, mutta sisältää olennaisen eron.

Q-oppimisen päivityssääntö on:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Ainoa ero SARSAan verrattuna on kohdearvossa. SARSA käyttää seuraavan todellisen toiminnon arvoa:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-oppiminen käyttää parhaan mahdollisen seuraavan toiminnon arvoa:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Tällä hienovaraisella muutoksella on suuri vaikutus: Q-oppiminen mahdollistaa toimintojen arvioinnin optimaalisen politiikan arvion perusteella, vaikka agentti vielä tutkii ympäristöä. Tämä tekee siitä off-policy-menetelmän — se oppii ahneesta politiikasta riippumatta harjoittelun aikana valituista toimista.

Milloin käyttää Q-oppimista?

Q-oppiminen on suositeltavaa, kun:

  • Kyseessä ovat deterministiset ympäristöt tai ympäristöt;
  • Tarvitaan nopeampi konvergenssinopeus.
question mark

Mikä erottaa Q-oppimisen off-policy-algoritmiksi?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 4

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Q-Oppiminen: Off-Policy TD -Oppiminen

Optimaalisen politiikan oppiminen SARSA:lla voi olla haastavaa. Samoin kuin on-policy Monte Carlo -ohjauksessa, se vaatii tyypillisesti ε\varepsilon:n asteittaista pienentämistä ajan myötä, lopulta lähestyen nollaa siirtyäkseen tutkimisesta hyödyntämiseen. Tämä prosessi on usein hidas ja saattaa vaatia paljon koulutusaikaa. Vaihtoehtona on käyttää off-policy-menetelmää, kuten Q-learning.

Note
Määritelmä

Q-learning on off-policy TD-ohjausalgoritmi, jota käytetään optimaalisen toimintaarvofunktion q(s,a)q_*(s, a) arvioimiseen. Se päivittää arvioitaan nykyisen parhaan toiminnon perusteella, mikä tekee siitä off-policy-algoritmin.

Päivityssääntö

Toisin kuin off-policy Monte Carlo -ohjauksessa, Q-oppiminen ei vaadi tärkeyspainotusta (importance sampling) käyttäytymis- ja tavoitepolitiikkojen erojen korjaamiseksi. Sen sijaan se perustuu suoraan päivityssääntöön, joka muistuttaa läheisesti SARSAa, mutta sisältää olennaisen eron.

Q-oppimisen päivityssääntö on:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Ainoa ero SARSAan verrattuna on kohdearvossa. SARSA käyttää seuraavan todellisen toiminnon arvoa:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-oppiminen käyttää parhaan mahdollisen seuraavan toiminnon arvoa:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Tällä hienovaraisella muutoksella on suuri vaikutus: Q-oppiminen mahdollistaa toimintojen arvioinnin optimaalisen politiikan arvion perusteella, vaikka agentti vielä tutkii ympäristöä. Tämä tekee siitä off-policy-menetelmän — se oppii ahneesta politiikasta riippumatta harjoittelun aikana valituista toimista.

Milloin käyttää Q-oppimista?

Q-oppiminen on suositeltavaa, kun:

  • Kyseessä ovat deterministiset ympäristöt tai ympäristöt;
  • Tarvitaan nopeampi konvergenssinopeus.
question mark

Mikä erottaa Q-oppimisen off-policy-algoritmiksi?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 4
some-alt