TD-Oppimisen Yleistys
Tähän asti olemme tarkastelleet kahta äärimmäistä tapausta oppimisesta kokemuksen perusteella:
- TD(0): käyttää yhden askeleen tuottoa;
- Monte Carlo: odottaa jakson loppuun asti laskeakseen tuoton.
Mutta entä jos haluamme jotakin näiden väliltä? Menetelmän, joka hyödyntää enemmän tulevaa tietoa kuin TD(0), mutta ei vaadi koko jakson odottamista kuten Monte Carlo?
Tässä kohtaa n-askeleen TD-oppiminen ja TD(λ) astuvat kuvaan — menetelmät, jotka yhdistävät ja yleistävät aiemmin esitellyt ideat.
n-askeleen TD-oppiminen
n-askeleen TD-oppimisen perusajatus on yksinkertainen: yhden seuraavan askeleen tai koko jakson sijaan käytetään seuraavia n askelta, jonka jälkeen käytetään bootstrap-menetelmää:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Tämä mahdollistaa kompromissin:
- Kun n=1: kyseessä on TD(0);
- Kun n=∞: kyseessä on Monte Carlo.
Näitä tuottoja voidaan käyttää korvaamaan tavoite TD(0)-päivityssäännössä:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) on älykäs idea, joka rakentuu n-askeleen TD-oppimisen päälle: sen sijaan, että valittaisiin kiinteä n, yhdistetään kaikki n-askeleen palautukset:
Lt=(1−λ)n=0∑∞λn−1Gt(n)missä λ∈[0,1] määrittää painotuksen:
- Jos λ=0: vain yhden askeleen palautus → TD(0);
- Jos λ=1: koko palautus → Monte Carlo;
- Väliarvot yhdistävät useita askeleen palautuksia.
Näin λ toimii harha-vaihtelu -tasapainon säätimenä:
- Pieni λ: enemmän harhaa, vähemmän vaihtelua;
- Suuri λ: vähemmän harhaa, enemmän vaihtelua.
Lt voidaan käyttää päivityskohteena TD(0)-päivityssäännössä:
V(St)←V(St)+α(Lt−V(St))Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
TD-Oppimisen Yleistys
Pyyhkäise näyttääksesi valikon
Tähän asti olemme tarkastelleet kahta äärimmäistä tapausta oppimisesta kokemuksen perusteella:
- TD(0): käyttää yhden askeleen tuottoa;
- Monte Carlo: odottaa jakson loppuun asti laskeakseen tuoton.
Mutta entä jos haluamme jotakin näiden väliltä? Menetelmän, joka hyödyntää enemmän tulevaa tietoa kuin TD(0), mutta ei vaadi koko jakson odottamista kuten Monte Carlo?
Tässä kohtaa n-askeleen TD-oppiminen ja TD(λ) astuvat kuvaan — menetelmät, jotka yhdistävät ja yleistävät aiemmin esitellyt ideat.
n-askeleen TD-oppiminen
n-askeleen TD-oppimisen perusajatus on yksinkertainen: yhden seuraavan askeleen tai koko jakson sijaan käytetään seuraavia n askelta, jonka jälkeen käytetään bootstrap-menetelmää:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Tämä mahdollistaa kompromissin:
- Kun n=1: kyseessä on TD(0);
- Kun n=∞: kyseessä on Monte Carlo.
Näitä tuottoja voidaan käyttää korvaamaan tavoite TD(0)-päivityssäännössä:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) on älykäs idea, joka rakentuu n-askeleen TD-oppimisen päälle: sen sijaan, että valittaisiin kiinteä n, yhdistetään kaikki n-askeleen palautukset:
Lt=(1−λ)n=0∑∞λn−1Gt(n)missä λ∈[0,1] määrittää painotuksen:
- Jos λ=0: vain yhden askeleen palautus → TD(0);
- Jos λ=1: koko palautus → Monte Carlo;
- Väliarvot yhdistävät useita askeleen palautuksia.
Näin λ toimii harha-vaihtelu -tasapainon säätimenä:
- Pieni λ: enemmän harhaa, vähemmän vaihtelua;
- Suuri λ: vähemmän harhaa, enemmän vaihtelua.
Lt voidaan käyttää päivityskohteena TD(0)-päivityssäännössä:
V(St)←V(St)+α(Lt−V(St))Kiitos palautteestasi!