Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Inkrementaaliset Toteutukset
Jokaisen tuoton tallentaminen jokaista tila-toimintoparia kohden voi nopeasti kuluttaa muistin loppuun ja merkittävästi lisätä laskenta-aikaa — erityisesti suurissa ympäristöissä. Tämä rajoitus koskee sekä on-policy- että off-policy-Monte Carlo -ohjausalgoritmeja. Tämän ratkaisemiseksi käytetään inkrementaalisia laskentamenetelmiä, jotka ovat samankaltaisia kuin monikätisissä bandiittialgoritmeissa. Näiden menetelmien avulla arviot voidaan päivittää välittömästi, ilman että koko tuottohistoriaa tarvitsee säilyttää.
On-policy Monte Carlo -ohjaus
On-policy-menetelmässä päivitysstrategia muistuttaa MAB-algoritmeissa käytettyä strategiaa:
missä keskiarvon estimaattia varten. Ainoat arvot, jotka täytyy tallentaa, ovat nykyiset toimintojen arviot ja kuinka monta kertaa tila-toimintopari on havaittu .
Pseudokoodi
Off-policy Monte Carlo -ohjaus
Off-policy-menetelmässä, jossa käytetään tavallista tärkeyspainotusta (ordinary importance sampling), kaikki on samanlaista kuin on-policy-menetelmässä.
Mielenkiintoisempi tilanne syntyy, kun käytetään painotettua tärkeyspainotusta (weighted importance sampling). Yhtälö näyttää samalta:
mutta ei voi käyttää, koska:
- Jokainen tuotto painotetaan :lla;
- Lopullinen summa jaetaan ei :lla, vaan :lla.
Tässä tapauksessa käytettävä on , missä:
- on nykyisen trajektorian ;
- on .
Ja aina kun tila-toiminto-pari esiintyy, nykyisen trajektorian lisätään :aan:
Pseudokoodi
Kiitos palautteestasi!