Oppiskele TD-oppimisen Yleistys | Aikaisen Eron Oppiminen

Tähän asti olemme tarkastelleet kahta äärimmäistä tapausta kokemuksesta oppimisessa:

TD(0): käyttää yhden askeleen tuottoa;
Monte Carlo: odottaa jakson loppuun asti laskeakseen tuoton.

Mutta entä jos haluamme jotakin näiden väliltä? Menetelmän, joka hyödyntää enemmän tulevaa tietoa kuin TD(0), mutta ei vaadi koko jakson odottamista kuten Monte Carlo?

Tässä kohtaa $n$ -askeleen TD-oppiminen ja TD( $\lambda$ ) tulevat mukaan — menetelmät, jotka yhdistävät ja yleistävät aiemmin esitellyt ideat.

$\Large n$ -askeleen TD-oppiminen

$n$ -askeleen TD-oppimisen perusidea on yksinkertainen: yhden seuraavan askeleen tai koko jakson sijaan käytetään seuraavia $n$ askelta, jonka jälkeen käytetään bootstrap-menetelmää:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Tämä mahdollistaa kompromissin:

Kun $n = 1$ : kyseessä on TD(0);
Kun $n = \infty$ : kyseessä on Monte Carlo.

Näitä tuottoja voidaan käyttää korvaamaan tavoite TD(0)-päivityssäännössä:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) on älykäs idea, joka rakentuu $n$ -askeleen TD-oppimisen pohjalle: kiinteän $n$ :n valitsemisen sijaan yhdistetään kaikki $n$ -askeleen palautukset:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

missä $\lambda \in [0, 1]$ määrittää painotuksen:

Jos $\lambda = 0$ : vain yhden askeleen palautus $\to$ TD(0);
Jos $\lambda = 1$ : koko palautus $\to$ Monte Carlo;
Väliarvot yhdistävät useita askeleen palautuksia.

Näin $\lambda$ toimii harha-vaihtelu -tasapainon säätimenä:

Matala $\lambda$ : enemmän harhaa, vähemmän vaihtelua;
Korkea $\lambda$ : vähemmän harhaa, enemmän vaihtelua.

$L_t$ voidaan käyttää päivityskohteena TD(0)-päivityssäännössä:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 5. Luku 5

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?

What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?

Can you provide an example to illustrate how n-step TD learning works?

Pyyhkäise näyttääksesi valikon

Tähän asti olemme tarkastelleet kahta äärimmäistä tapausta kokemuksesta oppimisessa:

TD(0): käyttää yhden askeleen tuottoa;
Monte Carlo: odottaa jakson loppuun asti laskeakseen tuoton.

Mutta entä jos haluamme jotakin näiden väliltä? Menetelmän, joka hyödyntää enemmän tulevaa tietoa kuin TD(0), mutta ei vaadi koko jakson odottamista kuten Monte Carlo?

Tässä kohtaa $n$ -askeleen TD-oppiminen ja TD( $\lambda$ ) tulevat mukaan — menetelmät, jotka yhdistävät ja yleistävät aiemmin esitellyt ideat.

$\Large n$ -askeleen TD-oppiminen

$n$ -askeleen TD-oppimisen perusidea on yksinkertainen: yhden seuraavan askeleen tai koko jakson sijaan käytetään seuraavia $n$ askelta, jonka jälkeen käytetään bootstrap-menetelmää:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Tämä mahdollistaa kompromissin:

Kun $n = 1$ : kyseessä on TD(0);
Kun $n = \infty$ : kyseessä on Monte Carlo.

Näitä tuottoja voidaan käyttää korvaamaan tavoite TD(0)-päivityssäännössä:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) on älykäs idea, joka rakentuu $n$ -askeleen TD-oppimisen pohjalle: kiinteän $n$ :n valitsemisen sijaan yhdistetään kaikki $n$ -askeleen palautukset:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

missä $\lambda \in [0, 1]$ määrittää painotuksen:

Jos $\lambda = 0$ : vain yhden askeleen palautus $\to$ TD(0);
Jos $\lambda = 1$ : koko palautus $\to$ Monte Carlo;
Väliarvot yhdistävät useita askeleen palautuksia.

Näin $\lambda$ toimii harha-vaihtelu -tasapainon säätimenä:

Matala $\lambda$ : enemmän harhaa, vähemmän vaihtelua;
Korkea $\lambda$ : vähemmän harhaa, enemmän vaihtelua.

$L_t$ voidaan käyttää päivityskohteena TD(0)-päivityssäännössä:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 5. Luku 5

TD-oppimisen Yleistys

n\Large nn-askeleen TD-oppiminen

TD(λ\Large\lambdaλ)

TD-oppimisen Yleistys

n\Large nn-askeleen TD-oppiminen

TD(λ\Large\lambdaλ)

$\Large n$ -askeleen TD-oppiminen

TD( $\Large\lambda$ )

$\Large n$ -askeleen TD-oppiminen

TD( $\Large\lambda$ )