Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer TD(0): Waardefunctieschatting | Temporale Verschil Leren
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
TD(0): Waardefunctieschatting

De eenvoudigste versie van TD-leren wordt TD(0) genoemd. Hierbij wordt de waarde van een toestand bijgewerkt op basis van de directe beloning en de geschatte waarde van de volgende toestand. Het is een één-staps TD-methode.

Bijwerkingsregel

Gegeven een toestand StS_t, beloning Rt+1R_{t+1} en volgende toestand St+1S_{t+1}, ziet de bijwerkingsregel er als volgt uit:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

waarbij

  • α\alpha de leersnelheid of stapgrootte is;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) de TD-fout is.

Intuïtie

De toestandwaardefunctie vπv_\pi kan als volgt worden gedefinieerd en uitgebreid:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Dit geeft het eerste deel van δt\delta_t — de ervaren opbrengst Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). En het tweede deel van δt\delta_t is de verwachte opbrengst V(St)V(S_t). De TD-fout δt\delta_t​ is dus het waarneembare verschil tussen wat daadwerkelijk gebeurde en wat we eerder verwachtten dat zou gebeuren. De bijwerkingsregel past daarom bij elke stap het eerdere geloof een beetje aan, waardoor het dichter bij de waarheid komt.

TD(0) vs Monte Carlo-schatting

Zowel TD(0) als Monte Carlo-schatting gebruiken gesamplede ervaringen om de toestandswaardefunctie vπ(s)v_\pi(s) voor een beleid π\pi te schatten. Onder standaard convergentievoorwaarden convergeren beide naar de werkelijke vπ(s)v_\pi(s) wanneer het aantal bezoeken aan elke toestand naar oneindig gaat. In de praktijk beschikken we echter slechts over een eindige hoeveelheid data, en de twee methoden verschillen aanzienlijk in hoe ze deze data gebruiken en hoe snel ze leren.

Bias-variantie-afweging

Vanuit het perspectief van de bias–variantie-afweging:

Monte Carlo-schatting wacht tot een episode is afgelopen en gebruikt vervolgens de volledige opbrengst om waarden bij te werken. Dit levert onbevooroordeelde schattingen op — de opbrengsten weerspiegelen daadwerkelijk de onderliggende verdeling — maar ze kunnen sterk fluctueren, vooral bij lange of zeer stochastische taken. Hoge variantie betekent dat veel episodes nodig zijn om de ruis uit te middelen en stabiele waardeschattingen te verkrijgen.

TD(0) maakt gebruik van bootstrapping door elke één-staps beloning te combineren met de huidige schatting van de waarde van de volgende toestand. Dit introduceert bias — vroege updates zijn afhankelijk van onvolmaakte schattingen — maar houdt de variantie laag, omdat elke update is gebaseerd op een kleine, incrementele fout. Lagere variantie zorgt ervoor dat TD(0) beloningsinformatie sneller door de toestandsruimte kan verspreiden, ook al kan initiële bias de convergentie vertragen.

Lerende data versus lerend model

Een andere manier om naar deze twee methoden te kijken, is door te analyseren wat elk van hen daadwerkelijk leert:

Monte Carlo-schatting leert direct van de waargenomen opbrengsten en past zijn waardeschattingen effectief aan op de specifieke episodes die het heeft gezien. Dit betekent dat het de fout op die trainingspaden minimaliseert, maar omdat het nooit een expliciet beeld opbouwt van hoe toestanden in elkaar overgaan, kan het moeite hebben om te generaliseren naar nieuwe of licht verschillende situaties.

TD(0) daarentegen, maakt gebruik van bootstrapping bij elke één-staps transitie, waarbij de directe beloning wordt gecombineerd met de schatting van de waarde van de volgende toestand. Op deze manier legt het effectief de relaties tussen toestanden vast — een impliciet model van de dynamiek van de omgeving. Dit modelachtige begrip stelt TD(0) in staat beter te generaliseren naar niet eerder geziene transities, wat vaak leidt tot nauwkeurigere waardeschattingen op nieuwe data.

Pseudocode

question mark

Hoe kun je de TD(0) beschrijven in termen van bias en variantie?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 2

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
TD(0): Waardefunctieschatting

De eenvoudigste versie van TD-leren wordt TD(0) genoemd. Hierbij wordt de waarde van een toestand bijgewerkt op basis van de directe beloning en de geschatte waarde van de volgende toestand. Het is een één-staps TD-methode.

Bijwerkingsregel

Gegeven een toestand StS_t, beloning Rt+1R_{t+1} en volgende toestand St+1S_{t+1}, ziet de bijwerkingsregel er als volgt uit:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

waarbij

  • α\alpha de leersnelheid of stapgrootte is;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) de TD-fout is.

Intuïtie

De toestandwaardefunctie vπv_\pi kan als volgt worden gedefinieerd en uitgebreid:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Dit geeft het eerste deel van δt\delta_t — de ervaren opbrengst Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). En het tweede deel van δt\delta_t is de verwachte opbrengst V(St)V(S_t). De TD-fout δt\delta_t​ is dus het waarneembare verschil tussen wat daadwerkelijk gebeurde en wat we eerder verwachtten dat zou gebeuren. De bijwerkingsregel past daarom bij elke stap het eerdere geloof een beetje aan, waardoor het dichter bij de waarheid komt.

TD(0) vs Monte Carlo-schatting

Zowel TD(0) als Monte Carlo-schatting gebruiken gesamplede ervaringen om de toestandswaardefunctie vπ(s)v_\pi(s) voor een beleid π\pi te schatten. Onder standaard convergentievoorwaarden convergeren beide naar de werkelijke vπ(s)v_\pi(s) wanneer het aantal bezoeken aan elke toestand naar oneindig gaat. In de praktijk beschikken we echter slechts over een eindige hoeveelheid data, en de twee methoden verschillen aanzienlijk in hoe ze deze data gebruiken en hoe snel ze leren.

Bias-variantie-afweging

Vanuit het perspectief van de bias–variantie-afweging:

Monte Carlo-schatting wacht tot een episode is afgelopen en gebruikt vervolgens de volledige opbrengst om waarden bij te werken. Dit levert onbevooroordeelde schattingen op — de opbrengsten weerspiegelen daadwerkelijk de onderliggende verdeling — maar ze kunnen sterk fluctueren, vooral bij lange of zeer stochastische taken. Hoge variantie betekent dat veel episodes nodig zijn om de ruis uit te middelen en stabiele waardeschattingen te verkrijgen.

TD(0) maakt gebruik van bootstrapping door elke één-staps beloning te combineren met de huidige schatting van de waarde van de volgende toestand. Dit introduceert bias — vroege updates zijn afhankelijk van onvolmaakte schattingen — maar houdt de variantie laag, omdat elke update is gebaseerd op een kleine, incrementele fout. Lagere variantie zorgt ervoor dat TD(0) beloningsinformatie sneller door de toestandsruimte kan verspreiden, ook al kan initiële bias de convergentie vertragen.

Lerende data versus lerend model

Een andere manier om naar deze twee methoden te kijken, is door te analyseren wat elk van hen daadwerkelijk leert:

Monte Carlo-schatting leert direct van de waargenomen opbrengsten en past zijn waardeschattingen effectief aan op de specifieke episodes die het heeft gezien. Dit betekent dat het de fout op die trainingspaden minimaliseert, maar omdat het nooit een expliciet beeld opbouwt van hoe toestanden in elkaar overgaan, kan het moeite hebben om te generaliseren naar nieuwe of licht verschillende situaties.

TD(0) daarentegen, maakt gebruik van bootstrapping bij elke één-staps transitie, waarbij de directe beloning wordt gecombineerd met de schatting van de waarde van de volgende toestand. Op deze manier legt het effectief de relaties tussen toestanden vast — een impliciet model van de dynamiek van de omgeving. Dit modelachtige begrip stelt TD(0) in staat beter te generaliseren naar niet eerder geziene transities, wat vaak leidt tot nauwkeurigere waardeschattingen op nieuwe data.

Pseudocode

question mark

Hoe kun je de TD(0) beschrijven in termen van bias en variantie?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 2
some-alt