Leer Generalisatie van TD-Leren | Tijdverschil Leren

Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:

TD(0): gebruikt de eenstaps-terugkeer;
Monte Carlo: wacht tot het einde van de episode om de terugkeer te berekenen.

Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?

Hier komen $n$ -staps TD-leren en TD( $\lambda$ ) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.

$\Large n$ -Staps TD-Leren

Het idee achter $n$ -staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende $n$ stappen en passen vervolgens bootstrapping toe:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dit maakt een afweging mogelijk:

Wanneer $n = 1$ : dan is het gewoon TD(0);
Wanneer $n = \infty$ : dan wordt het Monte Carlo.

Deze terugkeerwaarden kunnen vervolgens worden gebruikt om een doel te vervangen in de TD(0)-update regel:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) is een slimme benadering die voortbouwt op het $n$ -staps TD-leren: in plaats van een vaste $n$ te kiezen, combineren we alle $n$ -staps opbrengsten samen:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

waarbij $\lambda \in [0, 1]$ de weging bepaalt:

Als $\lambda = 0$ : alleen één-staps opbrengst $\to$ TD(0);
Als $\lambda = 1$ : volledige opbrengst $\to$ Monte Carlo;
Intermediaire waarden mengen meerdere stapsopbrengsten.

Dus $\lambda$ fungeert als een bias-variantie-afwegingsknop:

Lage $\lambda$ : meer bias, minder variantie;
Hoge $\lambda$ : minder bias, meer variantie.

$L_t$ kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 5

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen

Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:

TD(0): gebruikt de eenstaps-terugkeer;
Monte Carlo: wacht tot het einde van de episode om de terugkeer te berekenen.

Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?

Hier komen $n$ -staps TD-leren en TD( $\lambda$ ) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.

$\Large n$ -Staps TD-Leren

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dit maakt een afweging mogelijk:

Wanneer $n = 1$ : dan is het gewoon TD(0);
Wanneer $n = \infty$ : dan wordt het Monte Carlo.

Deze terugkeerwaarden kunnen vervolgens worden gebruikt om een doel te vervangen in de TD(0)-update regel:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) is een slimme benadering die voortbouwt op het $n$ -staps TD-leren: in plaats van een vaste $n$ te kiezen, combineren we alle $n$ -staps opbrengsten samen:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

waarbij $\lambda \in [0, 1]$ de weging bepaalt:

Als $\lambda = 0$ : alleen één-staps opbrengst $\to$ TD(0);
Als $\lambda = 1$ : volledige opbrengst $\to$ Monte Carlo;
Intermediaire waarden mengen meerdere stapsopbrengsten.

Dus $\lambda$ fungeert als een bias-variantie-afwegingsknop:

Lage $\lambda$ : meer bias, minder variantie;
Hoge $\lambda$ : minder bias, meer variantie.

$L_t$ kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 5

Generalisatie van TD-Leren

n\Large nn-Staps TD-Leren

TD(λ\Large\lambdaλ)

Generalisatie van TD-Leren

n\Large nn-Staps TD-Leren

TD(λ\Large\lambdaλ)

$\Large n$ -Staps TD-Leren

TD( $\Large\lambda$ )

$\Large n$ -Staps TD-Leren

TD( $\Large\lambda$ )