Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Hvad Er Temporal Difference-Læring?
Både dynamisk programmering og Monte Carlo-metoder har nogle gode idéer og nogle væsentlige ulemper.
Dynamisk programmering
Dynamisk programmering har en metode til effektivt at beregne tilstandsværdifunktionen og udlede en optimal politik ud fra denne. Den anvender bootstrapping — beregning af den nuværende tilstands værdi baseret på fremtidige tilstandes værdier — for at opnå dette.
Og selvom idéen om bootstrapping er kraftfuld, har selve den dynamiske programmering to væsentlige ulemper:
- Den kræver en fuldstændig og eksplicit model af miljøet;
- Tilstandsværdier beregnes for hver tilstand, selv hvis tilstanden ikke er i nærheden af den optimale sti.
Monte Carlo-metoder
Monte Carlo-metoder løser de to ulemper, som dynamisk programmering har:
- De kræver ikke en model, da de lærer af erfaring;
- Den måde, de lærer af erfaring på, begrænser udforskningen, så ikke-vigtige tilstande sjældent besøges.
Men de introducerer en ny ulempe — læringsprocessen finder kun sted, når episoden er afsluttet. Dette begrænser anvendeligheden af Monte Carlo-metoder til små episodiske opgaver, da større opgaver ville kræve et ekstremt stort antal handlinger, før episoden afsluttes.
Temporal Difference Learning
Temporal difference (TD) learning er resultatet af at kombinere idéer fra både dynamisk programmering og Monte Carlo-metoder. Det anvender læring fra erfaring fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.
Som resultat løser TD-læring de væsentligste problemer ved de to metoder:
- Læring fra erfaring adresserer problemet med at kræve en model og problemet med store tilstandsrum;
- Bootstrapping adresserer problemet med episodisk læring.
Hvordan fungerer det?
TD-læring fungerer gennem en simpel sløjfe:
- Vurdering af værdi: agenten starter med et indledende gæt på, hvor god den nuværende tilstand er;
- Udfør en handling: den udfører en handling, modtager en belønning og ender i en ny tilstand;
- Opdater vurderingen: ved hjælp af belønningen og værdien af den nye tilstand justerer agenten sin oprindelige vurdering en smule for at gøre den mere præcis;
- Gentag: over tid, ved gentagelse af denne sløjfe, opbygger agenten gradvist bedre og mere præcise værdiansættelser for forskellige tilstande.
Sammenligningstabel
Tak for dine kommentarer!