Lære Hvad Er Temporal Difference-Læring? | Temporal Difference Learning

Både dynamisk programmering og Monte Carlo-metoder har nogle gode idéer og nogle væsentlige ulemper.

Dynamisk programmering

Dynamisk programmering har en metode til effektivt at beregne tilstandsværdifunktionen og udlede en optimal politik ud fra denne. Den anvender bootstrapping — beregning af den nuværende tilstands værdi baseret på fremtidige tilstandes værdier — for at opnå dette.

Og selvom idéen om bootstrapping er stærk, har selve den dynamiske programmering to væsentlige ulemper:

Den kræver en fuldstændig og eksplicit model af miljøet;
Tilstandsværdier beregnes for hver tilstand, selv hvis tilstanden ikke er i nærheden af den optimale sti.

Monte Carlo-metoder

Monte Carlo-metoder løser de to ulemper, som dynamisk programmering har:

De kræver ikke en model, da de lærer af erfaring;
Den måde, de lærer af erfaring på, gør udforskning mere begrænset, så ikke-vigtige tilstande sjældent besøges.

Men de introducerer en ny ulempe — læringsprocessen finder kun sted, når episoden er afsluttet. Dette begrænser anvendeligheden af Monte Carlo-metoder til små episodiske opgaver, da større opgaver ville kræve et absurd stort antal handlinger, før episoden afsluttes.

Temporal Difference Learning

Definition

Temporal difference (TD) læring er et resultat af at kombinere idéerne fra både dynamisk programmering og Monte Carlo-metoder. Det tager læring fra erfaring-tilgangen fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.

Som resultat løser TD-læring de væsentligste problemer, som de to metoder har:

Læring fra erfaring adresserer problemet med at kræve en model og problemet med store tilstandsrum;
Bootstrapping adresserer problemet med episodisk læring.

Hvordan fungerer det?

TD-læring fungerer gennem en simpel løkke:

Vurder tilstanden: agenten starter med et indledende gæt på, hvor god den nuværende tilstand er;
Udfør en handling: agenten udfører en handling, modtager en belønning og ender i en ny tilstand;
Opdater vurderingen: ved hjælp af belønningen og værdien af den nye tilstand justerer agenten sin oprindelige vurdering en smule for at gøre den mere præcis;
Gentag: over tid, ved at gentage denne løkke, opbygger agenten gradvist bedre og mere præcise værdiansættelser for forskellige tilstande.

Sammenligningstabel

Var alt klart?

Tak for dine kommentarer!

Sektion 5. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen