Leer Wat Is Temporeel Verschil Leren?

Zowel dynamisch programmeren als Monte Carlo-methoden bevatten sterke ideeën, maar kennen ook belangrijke nadelen.

Dynamisch Programmeren

Dynamisch programmeren biedt een efficiënte manier om de waarde van toestanden te berekenen en hieruit een optimaal beleid af te leiden. Hierbij wordt gebruikgemaakt van bootstrapping — het berekenen van de waarde van de huidige toestand op basis van de waarden van toekomstige toestanden.

Hoewel het idee van bootstrapping krachtig is, kent dynamisch programmeren twee grote nadelen:

Er is een volledig en expliciet model van de omgeving vereist;
De waarden van toestanden worden voor elke toestand berekend, zelfs als deze toestand zich ver van het optimale pad bevindt.

Monte Carlo-methoden

Monte Carlo-methoden lossen de twee nadelen van dynamisch programmeren op:

Ze vereisen geen model, omdat ze leren van ervaring;
De manier waarop ze leren van ervaring beperkt de verkenning, waardoor onbelangrijke toestanden zelden worden bezocht.

Maar ze introduceren een nieuw nadeel — het leerproces vindt pas plaats nadat de episode is afgerond. Dit beperkt de toepasbaarheid van Monte Carlo-methoden tot kleine episodische taken, omdat grotere taken een absurd groot aantal acties zouden vereisen voordat de episode is afgerond.

Temporal Difference Learning

Definitie

Temporal difference (TD) learning is het resultaat van het combineren van ideeën uit zowel dynamisch programmeren als Monte Carlo-methoden. Het neemt de leren van ervaring-benadering van Monte Carlo-methoden en combineert dit met bootstrapping uit dynamisch programmeren.

Als resultaat lost TD-learning de belangrijkste problemen van beide methoden op:

Leren van ervaring pakt het probleem van het vereisen van een model en het probleem van grote toestandsruimtes aan;
Bootstrapping pakt het probleem van episodisch leren aan.

Hoe werkt het?

TD-leren werkt via een eenvoudige cyclus:

Waarde schatten: de agent begint met een eerste schatting van hoe goed de huidige toestand is;
Actie uitvoeren: de agent voert een actie uit, ontvangt een beloning en komt in een nieuwe toestand terecht;
Schatting bijwerken: met behulp van de beloning en de waarde van de nieuwe toestand past de agent zijn oorspronkelijke schatting lichtjes aan om deze nauwkeuriger te maken;
Herhalen: door deze cyclus herhaaldelijk uit te voeren, bouwt de agent geleidelijk betere en nauwkeurigere waardeschattingen op voor verschillende toestanden.

Vergelijkingstabel

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen