TD-Oppimisen Yleistys
Tähän asti olemme tarkastelleet kahta äärimmäistä tapausta oppimisesta kokemuksen perusteella:
- TD(0): käyttää yhden askeleen tuottoa;
- Monte Carlo: odottaa jakson loppuun asti laskeakseen tuoton.
Mutta entä jos haluamme jotakin näiden väliltä? Menetelmän, joka hyödyntää enemmän tulevaa tietoa kuin TD(0), mutta ei vaadi odottamaan koko jakson päättymistä kuten Monte Carlo?
Tässä kohtaa n-askeleen TD-oppiminen ja TD(λ) tulevat mukaan — menetelmät, jotka yhdistävät ja yleistävät aiemmin esiteltyjä ideoita.
n-askeleen TD-oppiminen
n-askeleen TD-oppimisen perusajatus on yksinkertainen: yhden seuraavan askeleen tai koko jakson sijaan käytetään seuraavia n askelta, jonka jälkeen tehdään bootstrapping:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Tämä mahdollistaa kompromissin:
- Kun n=1: kyseessä on TD(0);
- Kun n=∞: kyseessä on Monte Carlo.
Näitä tuottoja voidaan käyttää korvaamaan tavoite TD(0)-päivityssäännössä:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) on älykäs idea, joka perustuu n-askeleen TD-oppimiseen: sen sijaan, että valittaisiin kiinteä n, yhdistetään kaikki n-askeleen palautukset:
Lt=(1−λ)n=0∑∞λn−1Gt(n)missä λ∈[0,1] määrittää painotuksen:
- Jos λ=0: vain yhden askeleen palautus → TD(0);
- Jos λ=1: koko palautus → Monte Carlo;
- Väliarvot yhdistävät useita askeleen palautuksia.
Näin ollen λ toimii harha-vaihtelu -tasapainon säätimenä:
- Matala λ: enemmän harhaa, vähemmän vaihtelua;
- Korkea λ: vähemmän harhaa, enemmän vaihtelua.
Lt voidaan käyttää päivityskohteena TD(0)-päivityssäännössä:
V(St)←V(St)+α(Lt−V(St))Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
TD-Oppimisen Yleistys
Pyyhkäise näyttääksesi valikon
Tähän asti olemme tarkastelleet kahta äärimmäistä tapausta oppimisesta kokemuksen perusteella:
- TD(0): käyttää yhden askeleen tuottoa;
- Monte Carlo: odottaa jakson loppuun asti laskeakseen tuoton.
Mutta entä jos haluamme jotakin näiden väliltä? Menetelmän, joka hyödyntää enemmän tulevaa tietoa kuin TD(0), mutta ei vaadi odottamaan koko jakson päättymistä kuten Monte Carlo?
Tässä kohtaa n-askeleen TD-oppiminen ja TD(λ) tulevat mukaan — menetelmät, jotka yhdistävät ja yleistävät aiemmin esiteltyjä ideoita.
n-askeleen TD-oppiminen
n-askeleen TD-oppimisen perusajatus on yksinkertainen: yhden seuraavan askeleen tai koko jakson sijaan käytetään seuraavia n askelta, jonka jälkeen tehdään bootstrapping:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Tämä mahdollistaa kompromissin:
- Kun n=1: kyseessä on TD(0);
- Kun n=∞: kyseessä on Monte Carlo.
Näitä tuottoja voidaan käyttää korvaamaan tavoite TD(0)-päivityssäännössä:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) on älykäs idea, joka perustuu n-askeleen TD-oppimiseen: sen sijaan, että valittaisiin kiinteä n, yhdistetään kaikki n-askeleen palautukset:
Lt=(1−λ)n=0∑∞λn−1Gt(n)missä λ∈[0,1] määrittää painotuksen:
- Jos λ=0: vain yhden askeleen palautus → TD(0);
- Jos λ=1: koko palautus → Monte Carlo;
- Väliarvot yhdistävät useita askeleen palautuksia.
Näin ollen λ toimii harha-vaihtelu -tasapainon säätimenä:
- Matala λ: enemmän harhaa, vähemmän vaihtelua;
- Korkea λ: vähemmän harhaa, enemmän vaihtelua.
Lt voidaan käyttää päivityskohteena TD(0)-päivityssäännössä:
V(St)←V(St)+α(Lt−V(St))Kiitos palautteestasi!