Oppiskele Q-Oppiminen: Off-Policy TD -Oppiminen

Optimaalisen politiikan oppiminen SARSA-menetelmällä voi olla haastavaa. Samoin kuin on-policy Monte Carlo -ohjauksessa, se vaatii yleensä $\varepsilon$ -arvon asteittaista pienentämistä ajan myötä, lopulta lähestyen nollaa siirtyäkseen tutkimisesta hyödyntämiseen. Tämä prosessi on usein hidas ja saattaa vaatia paljon koulutusaikaa. Vaihtoehtona voidaan käyttää off-policy-menetelmää, kuten Q-learning.

Määritelmä

Q-learning on off-policy TD-ohjausalgoritmi, jota käytetään optimaalisen toimintaarvofunktion $q_*(s, a)$ arvioimiseen. Se päivittää arvioitaan perustuen nykyiseen parhaaseen toimintaan, mikä tekee siitä off-policy-algoritmin.

Päivityssääntö

Toisin kuin off-policy Monte Carlo -ohjauksessa, Q-oppiminen ei vaadi tärkeyden painotusta (importance sampling) korjatakseen käyttäytymis- ja tavoitepolitiikkojen välisiä eroja. Sen sijaan se perustuu suoraan päivityssääntöön, joka muistuttaa läheisesti SARSAa, mutta sisältää olennaisen eron.

Q-oppimisen päivityssääntö on:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Ainoa ero SARSAan verrattuna on kohdearvossa. SARSA käyttää seuraavan todellisuudessa valitun toiminnon arvoa:

\gamma Q(S_{t+1}, A_{t+1})

Q-oppiminen käyttää parhaan mahdollisen seuraavan toiminnon arvoa:

\gamma \max_a Q(S_{t+1}, a)

Tällä hienovaraisella muutoksella on suuri vaikutus: Q-oppiminen mahdollistaa toimintojen arvioinnin käyttäen arviota optimaalisesta politiikasta, vaikka agentti vielä tutkii ympäristöä. Tämä tekee siitä off-policy-menetelmän — se oppii ahneesta politiikasta riippumatta siitä, mitä toimintoja harjoittelun aikana valitaan.

Milloin käyttää Q-oppimista?

Q-oppiminen on suositeltavaa, kun:

Kyseessä ovat deterministiset ympäristöt tai ympäristöt;
Tarvitaan nopeampi konvergenssinopeus.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 5. Luku 4

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Pyyhkäise näyttääksesi valikon