Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Generalisatie van TD-Leren | Temporale Verschil Leren
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Generalisatie van TD-Leren

Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:

  • TD(0): gebruikt de één-staps opbrengst;
  • Monte Carlo: wacht tot het einde van de episode om de opbrengst te berekenen.

Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?

Hier komen nn-staps TD-leren en TD(λ\lambda) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.

n\Large n-staps TD-leren

Het idee achter nn-staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende nn stappen en passen vervolgens bootstrapping toe:

Gt(n)=Rt+1+γRt+2+...+γn1Rt+n+γnV(St+1)G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dit maakt een afweging mogelijk:

  • Wanneer n=1n = 1: dan is het gewoon TD(0);
  • Wanneer n=n = \infty: dan wordt het Monte Carlo.

Deze opbrengsten kunnen vervolgens worden gebruikt om het doel in de TD(0)-update regel te vervangen:

V(St)V(St)+α(Gt(n)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD(λ\Large\lambda)

TD(λ\lambda) is een slimme benadering die voortbouwt op nn-staps TD-leren: in plaats van een vaste nn te kiezen, combineren we alle nn-staps opbrengsten samen:

Lt=(1λ)n=0λn1Gt(n)L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

waarbij λ[0,1]\lambda \in [0, 1] de weging bepaalt:

  • Als λ=0\lambda = 0: alleen één-staps opbrengst \to TD(0);
  • Als λ=1\lambda = 1: volledige opbrengst \to Monte Carlo;
  • Intermediaire waarden mengen meerdere stapsopbrengsten.

Dus λ\lambda fungeert als een bias-variantie-afwegingsknop:

  • Lage λ\lambda: meer bias, minder variantie;
  • Hoge λ\lambda: minder bias, meer variantie.

LtL_t kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:

V(St)V(St)+α(LtV(St))V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)
question mark

Wanneer de parameter λ\lambda wordt ingesteld op 1 in TD(λ\lambda), wordt de methode gelijkwaardig aan

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Generalisatie van TD-Leren

Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:

  • TD(0): gebruikt de één-staps opbrengst;
  • Monte Carlo: wacht tot het einde van de episode om de opbrengst te berekenen.

Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?

Hier komen nn-staps TD-leren en TD(λ\lambda) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.

n\Large n-staps TD-leren

Het idee achter nn-staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende nn stappen en passen vervolgens bootstrapping toe:

Gt(n)=Rt+1+γRt+2+...+γn1Rt+n+γnV(St+1)G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dit maakt een afweging mogelijk:

  • Wanneer n=1n = 1: dan is het gewoon TD(0);
  • Wanneer n=n = \infty: dan wordt het Monte Carlo.

Deze opbrengsten kunnen vervolgens worden gebruikt om het doel in de TD(0)-update regel te vervangen:

V(St)V(St)+α(Gt(n)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD(λ\Large\lambda)

TD(λ\lambda) is een slimme benadering die voortbouwt op nn-staps TD-leren: in plaats van een vaste nn te kiezen, combineren we alle nn-staps opbrengsten samen:

Lt=(1λ)n=0λn1Gt(n)L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

waarbij λ[0,1]\lambda \in [0, 1] de weging bepaalt:

  • Als λ=0\lambda = 0: alleen één-staps opbrengst \to TD(0);
  • Als λ=1\lambda = 1: volledige opbrengst \to Monte Carlo;
  • Intermediaire waarden mengen meerdere stapsopbrengsten.

Dus λ\lambda fungeert als een bias-variantie-afwegingsknop:

  • Lage λ\lambda: meer bias, minder variantie;
  • Hoge λ\lambda: minder bias, meer variantie.

LtL_t kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:

V(St)V(St)+α(LtV(St))V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)
question mark

Wanneer de parameter λ\lambda wordt ingesteld op 1 in TD(λ\lambda), wordt de methode gelijkwaardig aan

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 5
some-alt