Q-Oppiminen: Off-Policy TD -Oppiminen
Optimaalisen politiikan oppiminen SARSA:lla voi olla haastavaa. Samoin kuin on-policy Monte Carlo -ohjauksessa, se vaatii tyypillisesti ε:n asteittaista pienentämistä ajan myötä, lopulta lähestyen nollaa siirtyäkseen tutkimisesta hyödyntämiseen. Tämä prosessi on usein hidas ja saattaa vaatia paljon koulutusaikaa. Vaihtoehtona on käyttää off-policy-menetelmää, kuten Q-learning.
Q-learning on off-policy TD-ohjausalgoritmi, jota käytetään optimaalisen toimintaarvofunktion q∗(s,a) arvioimiseen. Se päivittää arvioitaan nykyisen parhaan toiminnon perusteella, mikä tekee siitä off-policy-algoritmin.
Päivityssääntö
Toisin kuin off-policy Monte Carlo -ohjauksessa, Q-oppiminen ei vaadi tärkeyspainotusta (importance sampling) käyttäytymis- ja tavoitepolitiikkojen erojen korjaamiseksi. Sen sijaan se perustuu suoraan päivityssääntöön, joka muistuttaa läheisesti SARSAa, mutta sisältää olennaisen eron.
Q-oppimisen päivityssääntö on:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Ainoa ero SARSAan verrattuna on kohdearvossa. SARSA käyttää seuraavan todellisen toiminnon arvoa:
γQ(St+1,At+1)Q-oppiminen käyttää parhaan mahdollisen seuraavan toiminnon arvoa:
γamaxQ(St+1,a)Tällä hienovaraisella muutoksella on suuri vaikutus: Q-oppiminen mahdollistaa toimintojen arvioinnin optimaalisen politiikan arvion perusteella, vaikka agentti vielä tutkii ympäristöä. Tämä tekee siitä off-policy-menetelmän — se oppii ahneesta politiikasta riippumatta harjoittelun aikana valituista toimista.
Milloin käyttää Q-oppimista?
Q-oppiminen on suositeltavaa, kun:
- Kyseessä ovat deterministiset ympäristöt tai ympäristöt;
- Tarvitaan nopeampi konvergenssinopeus.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
Q-Oppiminen: Off-Policy TD -Oppiminen
Pyyhkäise näyttääksesi valikon
Optimaalisen politiikan oppiminen SARSA:lla voi olla haastavaa. Samoin kuin on-policy Monte Carlo -ohjauksessa, se vaatii tyypillisesti ε:n asteittaista pienentämistä ajan myötä, lopulta lähestyen nollaa siirtyäkseen tutkimisesta hyödyntämiseen. Tämä prosessi on usein hidas ja saattaa vaatia paljon koulutusaikaa. Vaihtoehtona on käyttää off-policy-menetelmää, kuten Q-learning.
Q-learning on off-policy TD-ohjausalgoritmi, jota käytetään optimaalisen toimintaarvofunktion q∗(s,a) arvioimiseen. Se päivittää arvioitaan nykyisen parhaan toiminnon perusteella, mikä tekee siitä off-policy-algoritmin.
Päivityssääntö
Toisin kuin off-policy Monte Carlo -ohjauksessa, Q-oppiminen ei vaadi tärkeyspainotusta (importance sampling) käyttäytymis- ja tavoitepolitiikkojen erojen korjaamiseksi. Sen sijaan se perustuu suoraan päivityssääntöön, joka muistuttaa läheisesti SARSAa, mutta sisältää olennaisen eron.
Q-oppimisen päivityssääntö on:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Ainoa ero SARSAan verrattuna on kohdearvossa. SARSA käyttää seuraavan todellisen toiminnon arvoa:
γQ(St+1,At+1)Q-oppiminen käyttää parhaan mahdollisen seuraavan toiminnon arvoa:
γamaxQ(St+1,a)Tällä hienovaraisella muutoksella on suuri vaikutus: Q-oppiminen mahdollistaa toimintojen arvioinnin optimaalisen politiikan arvion perusteella, vaikka agentti vielä tutkii ympäristöä. Tämä tekee siitä off-policy-menetelmän — se oppii ahneesta politiikasta riippumatta harjoittelun aikana valituista toimista.
Milloin käyttää Q-oppimista?
Q-oppiminen on suositeltavaa, kun:
- Kyseessä ovat deterministiset ympäristöt tai ympäristöt;
- Tarvitaan nopeampi konvergenssinopeus.
Kiitos palautteestasi!