Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad Er Temporal Difference-Læring? | Temporal Difference-Læring
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Hvad Er Temporal Difference-Læring?

Både dynamisk programmering og Monte Carlo-metoder har nogle gode idéer og nogle væsentlige ulemper.

Dynamisk programmering

Dynamisk programmering har en metode til effektivt at beregne tilstandsværdifunktionen og udlede en optimal politik ud fra denne. Den anvender bootstrapping — beregning af den nuværende tilstands værdi baseret på fremtidige tilstandes værdier — for at opnå dette.

Og selvom idéen om bootstrapping er kraftfuld, har selve den dynamiske programmering to væsentlige ulemper:

  • Den kræver en fuldstændig og eksplicit model af miljøet;
  • Tilstandsværdier beregnes for hver tilstand, selv hvis tilstanden ikke er i nærheden af den optimale sti.

Monte Carlo-metoder

Monte Carlo-metoder løser de to ulemper, som dynamisk programmering har:

  • De kræver ikke en model, da de lærer af erfaring;
  • Den måde, de lærer af erfaring på, begrænser udforskningen, så ikke-vigtige tilstande sjældent besøges.

Men de introducerer en ny ulempe — læringsprocessen finder kun sted, når episoden er afsluttet. Dette begrænser anvendeligheden af Monte Carlo-metoder til små episodiske opgaver, da større opgaver ville kræve et ekstremt stort antal handlinger, før episoden afsluttes.

Temporal Difference Learning

Note
Definition

Temporal difference (TD) learning er resultatet af at kombinere idéer fra både dynamisk programmering og Monte Carlo-metoder. Det anvender læring fra erfaring fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.

Som resultat løser TD-læring de væsentligste problemer ved de to metoder:

  • Læring fra erfaring adresserer problemet med at kræve en model og problemet med store tilstandsrum;
  • Bootstrapping adresserer problemet med episodisk læring.

Hvordan fungerer det?

TD-læring fungerer gennem en simpel sløjfe:

  1. Vurdering af værdi: agenten starter med et indledende gæt på, hvor god den nuværende tilstand er;
  2. Udfør en handling: den udfører en handling, modtager en belønning og ender i en ny tilstand;
  3. Opdater vurderingen: ved hjælp af belønningen og værdien af den nye tilstand justerer agenten sin oprindelige vurdering en smule for at gøre den mere præcis;
  4. Gentag: over tid, ved gentagelse af denne sløjfe, opbygger agenten gradvist bedre og mere præcise værdiansættelser for forskellige tilstande.

Sammenligningstabel

question mark

Hvordan kombinerer Temporal Difference-læring styrkerne fra dynamisk programmering og Monte Carlo-metoder?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Hvad Er Temporal Difference-Læring?

Både dynamisk programmering og Monte Carlo-metoder har nogle gode idéer og nogle væsentlige ulemper.

Dynamisk programmering

Dynamisk programmering har en metode til effektivt at beregne tilstandsværdifunktionen og udlede en optimal politik ud fra denne. Den anvender bootstrapping — beregning af den nuværende tilstands værdi baseret på fremtidige tilstandes værdier — for at opnå dette.

Og selvom idéen om bootstrapping er kraftfuld, har selve den dynamiske programmering to væsentlige ulemper:

  • Den kræver en fuldstændig og eksplicit model af miljøet;
  • Tilstandsværdier beregnes for hver tilstand, selv hvis tilstanden ikke er i nærheden af den optimale sti.

Monte Carlo-metoder

Monte Carlo-metoder løser de to ulemper, som dynamisk programmering har:

  • De kræver ikke en model, da de lærer af erfaring;
  • Den måde, de lærer af erfaring på, begrænser udforskningen, så ikke-vigtige tilstande sjældent besøges.

Men de introducerer en ny ulempe — læringsprocessen finder kun sted, når episoden er afsluttet. Dette begrænser anvendeligheden af Monte Carlo-metoder til små episodiske opgaver, da større opgaver ville kræve et ekstremt stort antal handlinger, før episoden afsluttes.

Temporal Difference Learning

Note
Definition

Temporal difference (TD) learning er resultatet af at kombinere idéer fra både dynamisk programmering og Monte Carlo-metoder. Det anvender læring fra erfaring fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.

Som resultat løser TD-læring de væsentligste problemer ved de to metoder:

  • Læring fra erfaring adresserer problemet med at kræve en model og problemet med store tilstandsrum;
  • Bootstrapping adresserer problemet med episodisk læring.

Hvordan fungerer det?

TD-læring fungerer gennem en simpel sløjfe:

  1. Vurdering af værdi: agenten starter med et indledende gæt på, hvor god den nuværende tilstand er;
  2. Udfør en handling: den udfører en handling, modtager en belønning og ender i en ny tilstand;
  3. Opdater vurderingen: ved hjælp af belønningen og værdien af den nye tilstand justerer agenten sin oprindelige vurdering en smule for at gøre den mere præcis;
  4. Gentag: over tid, ved gentagelse af denne sløjfe, opbygger agenten gradvist bedre og mere præcise værdiansættelser for forskellige tilstande.

Sammenligningstabel

question mark

Hvordan kombinerer Temporal Difference-læring styrkerne fra dynamisk programmering og Monte Carlo-metoder?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 1
some-alt