Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
TD(0): Waardefunctieschatting
De eenvoudigste versie van TD-leren wordt TD(0) genoemd. Hierbij wordt de waarde van een toestand bijgewerkt op basis van de directe beloning en de geschatte waarde van de volgende toestand. Het is een één-staps TD-methode.
Bijwerkingsregel
Gegeven een toestand , beloning en volgende toestand , ziet de bijwerkingsregel er als volgt uit:
waarbij
- de leersnelheid of stapgrootte is;
- de TD-fout is.
Intuïtie
De toestandwaardefunctie kan als volgt worden gedefinieerd en uitgebreid:
Dit geeft het eerste deel van — de ervaren opbrengst . En het tweede deel van is de verwachte opbrengst . De TD-fout is dus het waarneembare verschil tussen wat daadwerkelijk gebeurde en wat we eerder verwachtten dat zou gebeuren. De bijwerkingsregel past daarom bij elke stap het eerdere geloof een beetje aan, waardoor het dichter bij de waarheid komt.
TD(0) vs Monte Carlo-schatting
Zowel TD(0) als Monte Carlo-schatting gebruiken gesamplede ervaringen om de toestandswaardefunctie voor een beleid te schatten. Onder standaard convergentievoorwaarden convergeren beide naar de werkelijke wanneer het aantal bezoeken aan elke toestand naar oneindig gaat. In de praktijk beschikken we echter slechts over een eindige hoeveelheid data, en de twee methoden verschillen aanzienlijk in hoe ze deze data gebruiken en hoe snel ze leren.
Bias-variantie-afweging
Vanuit het perspectief van de bias–variantie-afweging:
Monte Carlo-schatting wacht tot een episode is afgelopen en gebruikt vervolgens de volledige opbrengst om waarden bij te werken. Dit levert onbevooroordeelde schattingen op — de opbrengsten weerspiegelen daadwerkelijk de onderliggende verdeling — maar ze kunnen sterk fluctueren, vooral bij lange of zeer stochastische taken. Hoge variantie betekent dat veel episodes nodig zijn om de ruis uit te middelen en stabiele waardeschattingen te verkrijgen.
TD(0) maakt gebruik van bootstrapping door elke één-staps beloning te combineren met de huidige schatting van de waarde van de volgende toestand. Dit introduceert bias — vroege updates zijn afhankelijk van onvolmaakte schattingen — maar houdt de variantie laag, omdat elke update is gebaseerd op een kleine, incrementele fout. Lagere variantie zorgt ervoor dat TD(0) beloningsinformatie sneller door de toestandsruimte kan verspreiden, ook al kan initiële bias de convergentie vertragen.
Lerende data versus lerend model
Een andere manier om naar deze twee methoden te kijken, is door te analyseren wat elk van hen daadwerkelijk leert:
Monte Carlo-schatting leert direct van de waargenomen opbrengsten en past zijn waardeschattingen effectief aan op de specifieke episodes die het heeft gezien. Dit betekent dat het de fout op die trainingspaden minimaliseert, maar omdat het nooit een expliciet beeld opbouwt van hoe toestanden in elkaar overgaan, kan het moeite hebben om te generaliseren naar nieuwe of licht verschillende situaties.
TD(0) daarentegen, maakt gebruik van bootstrapping bij elke één-staps transitie, waarbij de directe beloning wordt gecombineerd met de schatting van de waarde van de volgende toestand. Op deze manier legt het effectief de relaties tussen toestanden vast — een impliciet model van de dynamiek van de omgeving. Dit modelachtige begrip stelt TD(0) in staat beter te generaliseren naar niet eerder geziene transities, wat vaak leidt tot nauwkeurigere waardeschattingen op nieuwe data.
Pseudocode
Bedankt voor je feedback!