Leer TD(0): Waardefunctieschatting

De eenvoudigste versie van TD-leren wordt TD(0) genoemd. Hierbij wordt de waarde van een toestand bijgewerkt op basis van de directe beloning en de geschatte waarde van de volgende toestand. Dit is een één-staps TD-methode.

Bijwerkingsregel

Gegeven een toestand $S_t$ , beloning $R_{t+1}$ en volgende toestand $S_{t+1}$ , ziet de bijwerkingsregel er als volgt uit:

V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

waarbij

$\alpha$ een leersnelheid of stapgrootte is;
$\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t)$ de TD-fout is.

Intuïtie

De toestandwaardefunctie $v_\pi$ kan als volgt worden gedefinieerd en uitgebreid:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Dit geeft het eerste deel van $\delta_t$ — de ervaren opbrengst $R_{t+1} + \gamma V(S_{t+1})$ . En het tweede deel van $\delta_t$ is de verwachte opbrengst $V(S_t)$ . De TD-fout $\delta_t$ is dus het waarneembare verschil tussen wat daadwerkelijk gebeurde en wat eerder werd verwacht. De bijwerkingsregel past de eerdere verwachting bij elke stap een beetje aan, waardoor deze dichter bij de werkelijkheid komt.

TD(0) versus Monte Carlo-schatting

Zowel TD(0) als Monte Carlo-schatting gebruiken gesamplede ervaringen om de toestandswaardefunctie $v_\pi(s)$ voor een beleid $\pi$ te schatten. Onder standaard convergentievoorwaarden convergeren beide naar de werkelijke $v_\pi(s)$ wanneer het aantal bezoeken aan elke toestand naar oneindig gaat. In de praktijk is er echter slechts een eindige hoeveelheid data beschikbaar, en de twee methoden verschillen aanzienlijk in hoe ze deze data gebruiken en hoe snel ze leren.

Bias-variantie-afweging

Vanuit het perspectief van de bias–variantie-afweging:

Monte Carlo-schatting wacht tot een episode is afgelopen en gebruikt vervolgens de volledige opbrengst om waarden bij te werken. Dit levert onbevooroordeelde schattingen op — de opbrengsten weerspiegelen daadwerkelijk de onderliggende verdeling — maar ze kunnen sterk fluctueren, vooral bij lange of zeer stochastische taken. Hoge variantie betekent dat veel episodes nodig zijn om de ruis uit te middelen en stabiele waardeschattingen te verkrijgen.

TD(0) maakt gebruik van bootstrapping door elke één-staps beloning te combineren met de huidige schatting van de waarde van de volgende toestand. Dit introduceert bias — vroege updates zijn afhankelijk van onvolmaakte schattingen — maar houdt de variantie laag, omdat elke update is gebaseerd op een kleine, incrementele fout. Lagere variantie zorgt ervoor dat TD(0) beloningsinformatie sneller door de toestandsruimte kan verspreiden, ook al kan initiële bias de convergentie vertragen.

Lerende Data versus Leren van Model

Een andere manier om naar deze twee methoden te kijken is door te analyseren wat elk van hen daadwerkelijk leert:

Monte Carlo-schatting leert direct van de geobserveerde opbrengsten en past zijn waardeschattingen effectief aan op de specifieke episodes die het heeft gezien. Dit betekent dat het de fout op die trainingsreeksen minimaliseert, maar omdat het nooit een expliciet beeld opbouwt van hoe toestanden in elkaar overgaan, kan het moeite hebben om te generaliseren naar nieuwe of licht afwijkende situaties.

TD(0) daarentegen, maakt gebruik van bootstrapping bij elke één-staps transitie, waarbij de directe beloning wordt gecombineerd met de schatting van de waarde van de volgende toestand. Op deze manier legt het effectief de relaties tussen toestanden vast — een impliciet model van de dynamiek van de omgeving. Dit modelachtige begrip stelt TD(0) in staat beter te generaliseren naar ongeziene transities, wat vaak leidt tot nauwkeurigere waardeschattingen op nieuwe data.

Pseudocode

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 2

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain the main differences between TD(0) and Monte Carlo methods in more detail?

How does the bias-variance tradeoff affect the choice between TD(0) and Monte Carlo?

Can you walk me through the TD(0) update rule with a concrete example?

Veeg om het menu te tonen