Hvad Er Temporal Difference-Læring?
Både dynamisk programmering og Monte Carlo-metoder har nogle gode idéer og nogle væsentlige ulemper.
Dynamisk programmering
Dynamisk programmering har en metode til effektivt at beregne tilstandsværdifunktionen og udlede en optimal politik ud fra denne. Den anvender bootstrapping — beregning af den nuværende tilstands værdi baseret på fremtidige tilstandes værdier — for at opnå dette.
Og selvom idéen om bootstrapping er stærk, har selve den dynamiske programmering to væsentlige ulemper:
- Den kræver en fuldstændig og eksplicit model af miljøet;
- Tilstandsværdier beregnes for hver tilstand, selv hvis tilstanden ikke er i nærheden af den optimale sti.
Monte Carlo-metoder
Monte Carlo-metoder løser de to ulemper, som dynamisk programmering har:
- De kræver ikke en model, da de lærer af erfaring;
- Den måde, de lærer af erfaring på, gør udforskning mere begrænset, så ikke-vigtige tilstande sjældent besøges.
Men de introducerer en ny ulempe — læringsprocessen finder kun sted, når episoden er afsluttet. Dette begrænser anvendeligheden af Monte Carlo-metoder til små episodiske opgaver, da større opgaver ville kræve et absurd stort antal handlinger, før episoden afsluttes.
Temporal Difference Learning
Temporal difference (TD) læring er et resultat af at kombinere idéerne fra både dynamisk programmering og Monte Carlo-metoder. Det tager læring fra erfaring-tilgangen fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.
Som resultat løser TD-læring de væsentligste problemer, som de to metoder har:
- Læring fra erfaring adresserer problemet med at kræve en model og problemet med store tilstandsrum;
- Bootstrapping adresserer problemet med episodisk læring.
Hvordan fungerer det?
TD-læring fungerer gennem en simpel løkke:
- Vurder tilstanden: agenten starter med et indledende gæt på, hvor god den nuværende tilstand er;
- Udfør en handling: agenten udfører en handling, modtager en belønning og ender i en ny tilstand;
- Opdater vurderingen: ved hjælp af belønningen og værdien af den nye tilstand justerer agenten sin oprindelige vurdering en smule for at gøre den mere præcis;
- Gentag: over tid, ved at gentage denne løkke, opbygger agenten gradvist bedre og mere præcise værdiansættelser for forskellige tilstande.
Sammenligningstabel
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain what bootstrapping means in this context?
What are some real-world examples where TD learning is used?
How does TD learning combine the strengths of dynamic programming and Monte Carlo methods?
Awesome!
Completion rate improved to 2.7
Hvad Er Temporal Difference-Læring?
Stryg for at vise menuen
Både dynamisk programmering og Monte Carlo-metoder har nogle gode idéer og nogle væsentlige ulemper.
Dynamisk programmering
Dynamisk programmering har en metode til effektivt at beregne tilstandsværdifunktionen og udlede en optimal politik ud fra denne. Den anvender bootstrapping — beregning af den nuværende tilstands værdi baseret på fremtidige tilstandes værdier — for at opnå dette.
Og selvom idéen om bootstrapping er stærk, har selve den dynamiske programmering to væsentlige ulemper:
- Den kræver en fuldstændig og eksplicit model af miljøet;
- Tilstandsværdier beregnes for hver tilstand, selv hvis tilstanden ikke er i nærheden af den optimale sti.
Monte Carlo-metoder
Monte Carlo-metoder løser de to ulemper, som dynamisk programmering har:
- De kræver ikke en model, da de lærer af erfaring;
- Den måde, de lærer af erfaring på, gør udforskning mere begrænset, så ikke-vigtige tilstande sjældent besøges.
Men de introducerer en ny ulempe — læringsprocessen finder kun sted, når episoden er afsluttet. Dette begrænser anvendeligheden af Monte Carlo-metoder til små episodiske opgaver, da større opgaver ville kræve et absurd stort antal handlinger, før episoden afsluttes.
Temporal Difference Learning
Temporal difference (TD) læring er et resultat af at kombinere idéerne fra både dynamisk programmering og Monte Carlo-metoder. Det tager læring fra erfaring-tilgangen fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.
Som resultat løser TD-læring de væsentligste problemer, som de to metoder har:
- Læring fra erfaring adresserer problemet med at kræve en model og problemet med store tilstandsrum;
- Bootstrapping adresserer problemet med episodisk læring.
Hvordan fungerer det?
TD-læring fungerer gennem en simpel løkke:
- Vurder tilstanden: agenten starter med et indledende gæt på, hvor god den nuværende tilstand er;
- Udfør en handling: agenten udfører en handling, modtager en belønning og ender i en ny tilstand;
- Opdater vurderingen: ved hjælp af belønningen og værdien af den nye tilstand justerer agenten sin oprindelige vurdering en smule for at gøre den mere præcis;
- Gentag: over tid, ved at gentage denne løkke, opbygger agenten gradvist bedre og mere præcise værdiansættelser for forskellige tilstande.
Sammenligningstabel
Tak for dine kommentarer!