Lära Generalisering av TD-inlärning | Temporär Differensinlärning

Hittills har vi betraktat två ytterligheter när det gäller att lära sig från erfarenhet:

TD(0): använder ettstegsavkastning;
Monte Carlo: väntar till slutet av episoden för att beräkna avkastningen.

Men vad händer om vi vill ha något däremellan? Något som utnyttjar mer framtida information än TD(0), men som inte behöver vänta på hela episoden som Monte Carlo?

Det är här $n$ -stegs TD-inlärning och TD( $\lambda$ ) kommer in — metoder som förenar och generaliserar de idéer vi hittills har sett.

$\Large n$ -stegs TD-inlärning

Idén bakom $n$ -stegs TD-inlärning är enkel: istället för att använda bara nästa steg eller hela episoden, använder vi nästa $n$ steg och bootstrapping:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Detta möjliggör en avvägning:

När $n = 1$ : är det bara TD(0);
När $n = \infty$ : blir det Monte Carlo.

Denna avkastning kan sedan användas för att ersätta målet i TD(0)-uppdateringsregeln:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) är en smart idé som bygger vidare på $n$ -stegs TD-inlärning: istället för att välja ett fast $n$ , kombinerar vi alla $n$ -stegsavkastningar tillsammans:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

där $\lambda \in [0, 1]$ styr viktningen:

Om $\lambda = 0$ : endast ettstegsavkastning $\to$ TD(0);
Om $\lambda = 1$ : fullständig avkastning $\to$ Monte Carlo;
Intermediära värden blandar flera stegs avkastningar.

Så $\lambda$ fungerar som en reglage för bias-varianskompromiss:

Låg $\lambda$ : mer bias, mindre varians;
Hög $\lambda$ : mindre bias, mer varians.

$L_t$ kan sedan användas som uppdateringsmål i TD(0)-uppdateringsregeln:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 5

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Svep för att visa menyn

Hittills har vi betraktat två ytterligheter när det gäller att lära sig från erfarenhet:

TD(0): använder ettstegsavkastning;
Monte Carlo: väntar till slutet av episoden för att beräkna avkastningen.

Men vad händer om vi vill ha något däremellan? Något som utnyttjar mer framtida information än TD(0), men som inte behöver vänta på hela episoden som Monte Carlo?

Det är här $n$ -stegs TD-inlärning och TD( $\lambda$ ) kommer in — metoder som förenar och generaliserar de idéer vi hittills har sett.

$\Large n$ -stegs TD-inlärning

Idén bakom $n$ -stegs TD-inlärning är enkel: istället för att använda bara nästa steg eller hela episoden, använder vi nästa $n$ steg och bootstrapping:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Detta möjliggör en avvägning:

När $n = 1$ : är det bara TD(0);
När $n = \infty$ : blir det Monte Carlo.

Denna avkastning kan sedan användas för att ersätta målet i TD(0)-uppdateringsregeln:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) är en smart idé som bygger vidare på $n$ -stegs TD-inlärning: istället för att välja ett fast $n$ , kombinerar vi alla $n$ -stegsavkastningar tillsammans:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

där $\lambda \in [0, 1]$ styr viktningen:

Om $\lambda = 0$ : endast ettstegsavkastning $\to$ TD(0);
Om $\lambda = 1$ : fullständig avkastning $\to$ Monte Carlo;
Intermediära värden blandar flera stegs avkastningar.

Så $\lambda$ fungerar som en reglage för bias-varianskompromiss:

Låg $\lambda$ : mer bias, mindre varians;
Hög $\lambda$ : mindre bias, mer varians.

$L_t$ kan sedan användas som uppdateringsmål i TD(0)-uppdateringsregeln:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 5

Generalisering av TD-inlärning

n\Large nn-stegs TD-inlärning

TD(λ\Large\lambdaλ)

Generalisering av TD-inlärning

n\Large nn-stegs TD-inlärning

TD(λ\Large\lambdaλ)

$\Large n$ -stegs TD-inlärning

TD( $\Large\lambda$ )

$\Large n$ -stegs TD-inlärning

TD( $\Large\lambda$ )