Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
TD-Oppimisen Yleistys
Tähän asti olemme tarkastelleet kahta äärimmäistä tapausta oppimisesta kokemuksen perusteella:
- TD(0): käyttää yhden askeleen tuottoa;
- Monte Carlo: odottaa jakson loppuun asti laskeakseen tuoton.
Mutta entä jos haluamme jotakin näiden väliltä? Menetelmän, joka hyödyntää enemmän tulevaa tietoa kuin TD(0), mutta ei vaadi koko jakson odottamista kuten Monte Carlo?
Tässä kohtaa -askeleen TD-oppiminen ja TD() astuvat kuvaan — menetelmät, jotka yhdistävät ja yleistävät aiemmin esitellyt ideat.
-askeleen TD-oppiminen
-askeleen TD-oppimisen perusajatus on yksinkertainen: yhden seuraavan askeleen tai koko jakson sijaan käytetään seuraavia askelta, jonka jälkeen käytetään bootstrap-menetelmää:
Tämä mahdollistaa kompromissin:
- Kun : kyseessä on TD(0);
- Kun : kyseessä on Monte Carlo.
Näitä tuottoja voidaan käyttää korvaamaan tavoite TD(0)-päivityssäännössä:
TD()
TD() on älykäs idea, joka rakentuu -askeleen TD-oppimisen päälle: sen sijaan, että valittaisiin kiinteä , yhdistetään kaikki -askeleen palautukset:
missä määrittää painotuksen:
- Jos : vain yhden askeleen palautus TD(0);
- Jos : koko palautus Monte Carlo;
- Väliarvot yhdistävät useita askeleen palautuksia.
Näin toimii harha-vaihtelu -tasapainon säätimenä:
- Pieni : enemmän harhaa, vähemmän vaihtelua;
- Suuri : vähemmän harhaa, enemmän vaihtelua.
voidaan käyttää päivityskohteena TD(0)-päivityssäännössä:
Kiitos palautteestasi!