Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Q-Oppiminen: Off-Policy TD -Oppiminen
Optimaalisen politiikan oppiminen SARSA:lla voi olla haastavaa. Samoin kuin on-policy Monte Carlo -ohjauksessa, se vaatii tyypillisesti :n asteittaista pienentämistä ajan myötä, lopulta lähestyen nollaa siirtyäkseen tutkimisesta hyödyntämiseen. Tämä prosessi on usein hidas ja saattaa vaatia paljon koulutusaikaa. Vaihtoehtona on käyttää off-policy-menetelmää, kuten Q-learning.
Q-learning on off-policy TD-ohjausalgoritmi, jota käytetään optimaalisen toimintaarvofunktion arvioimiseen. Se päivittää arvioitaan nykyisen parhaan toiminnon perusteella, mikä tekee siitä off-policy-algoritmin.
Päivityssääntö
Toisin kuin off-policy Monte Carlo -ohjauksessa, Q-oppiminen ei vaadi tärkeyspainotusta (importance sampling) käyttäytymis- ja tavoitepolitiikkojen erojen korjaamiseksi. Sen sijaan se perustuu suoraan päivityssääntöön, joka muistuttaa läheisesti SARSAa, mutta sisältää olennaisen eron.
Q-oppimisen päivityssääntö on:
Ainoa ero SARSAan verrattuna on kohdearvossa. SARSA käyttää seuraavan todellisen toiminnon arvoa:
Q-oppiminen käyttää parhaan mahdollisen seuraavan toiminnon arvoa:
Tällä hienovaraisella muutoksella on suuri vaikutus: Q-oppiminen mahdollistaa toimintojen arvioinnin optimaalisen politiikan arvion perusteella, vaikka agentti vielä tutkii ympäristöä. Tämä tekee siitä off-policy-menetelmän — se oppii ahneesta politiikasta riippumatta harjoittelun aikana valituista toimista.
Milloin käyttää Q-oppimista?
Q-oppiminen on suositeltavaa, kun:
- Kyseessä ovat deterministiset ympäristöt tai ympäristöt;
- Tarvitaan nopeampi konvergenssinopeus.
Kiitos palautteestasi!