Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hva er temporær differanse-læring? | Temporal Difference-læring
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Hva er temporær differanse-læring?

Både dynamisk programmering og Monte Carlo-metoder har noen gode ideer og noen betydelige ulemper.

Dynamisk programmering

Dynamisk programmering har en metode for effektivt å beregne tilstandsverdifunksjonen og utlede en optimal policy fra denne. Den benytter bootstrapping — beregning av nåværende tilstands verdi basert på fremtidige tilstanders verdier — for å oppnå dette.

Selv om ideen om bootstrapping er kraftfull, har selve dynamisk programmering to store ulemper:

  • Den krever en fullstendig og eksplisitt modell av miljøet;
  • Tilstandsverdier beregnes for hver tilstand, selv om tilstanden ikke er i nærheten av den optimale banen.

Monte Carlo-metoder

Monte Carlo-metoder løser de to ulempene ved dynamisk programmering:

  • De krever ikke en modell, siden de lærer av erfaring;
  • Måten de lærer av erfaring på gjør at utforskningen blir mer begrenset, slik at ikke-viktige tilstander sjelden besøkes.

Men de introduserer en ny ulempe — læringsprosessen skjer kun etter at episoden er avsluttet. Dette begrenser anvendeligheten av Monte Carlo-metoder til små episodiske oppgaver, ettersom større oppgaver vil kreve et absurd stort antall handlinger før episoden avsluttes.

Temporal Difference-læring

Note
Definisjon

Temporal difference (TD) læring er et resultat av å kombinere ideene fra både dynamisk programmering og Monte Carlo-metoder. Den tar læring fra erfaring-tilnærmingen fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.

Som et resultat løser TD-læring de største utfordringene de to metodene har:

  • Læring fra erfaring adresserer behovet for en modell og utfordringen med store tilstandsrom;
  • Bootstrapping adresserer utfordringen med episodisk læring.

Hvordan fungerer det?

TD-læring fungerer gjennom en enkel sløyfe:

  1. Estimer verdien: agenten starter med et innledende anslag på hvor god den nåværende tilstanden er;
  2. Utfør en handling: den utfører en handling, mottar en belønning og havner i en ny tilstand;
  3. Oppdater anslaget: ved å bruke belønningen og verdien til den nye tilstanden, justerer agenten sitt opprinnelige anslag litt for å gjøre det mer nøyaktig;
  4. Gjenta: over tid, ved å gjenta denne sløyfen, bygger agenten gradvis bedre og mer nøyaktige verdianslag for ulike tilstander.

Sammenligningstabell

question mark

Hvordan kombinerer Temporal Difference-læring styrkene til dynamisk programmering og Monte Carlo-metoder?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Hva er temporær differanse-læring?

Både dynamisk programmering og Monte Carlo-metoder har noen gode ideer og noen betydelige ulemper.

Dynamisk programmering

Dynamisk programmering har en metode for effektivt å beregne tilstandsverdifunksjonen og utlede en optimal policy fra denne. Den benytter bootstrapping — beregning av nåværende tilstands verdi basert på fremtidige tilstanders verdier — for å oppnå dette.

Selv om ideen om bootstrapping er kraftfull, har selve dynamisk programmering to store ulemper:

  • Den krever en fullstendig og eksplisitt modell av miljøet;
  • Tilstandsverdier beregnes for hver tilstand, selv om tilstanden ikke er i nærheten av den optimale banen.

Monte Carlo-metoder

Monte Carlo-metoder løser de to ulempene ved dynamisk programmering:

  • De krever ikke en modell, siden de lærer av erfaring;
  • Måten de lærer av erfaring på gjør at utforskningen blir mer begrenset, slik at ikke-viktige tilstander sjelden besøkes.

Men de introduserer en ny ulempe — læringsprosessen skjer kun etter at episoden er avsluttet. Dette begrenser anvendeligheten av Monte Carlo-metoder til små episodiske oppgaver, ettersom større oppgaver vil kreve et absurd stort antall handlinger før episoden avsluttes.

Temporal Difference-læring

Note
Definisjon

Temporal difference (TD) læring er et resultat av å kombinere ideene fra både dynamisk programmering og Monte Carlo-metoder. Den tar læring fra erfaring-tilnærmingen fra Monte Carlo-metoder og kombinerer det med bootstrapping fra dynamisk programmering.

Som et resultat løser TD-læring de største utfordringene de to metodene har:

  • Læring fra erfaring adresserer behovet for en modell og utfordringen med store tilstandsrom;
  • Bootstrapping adresserer utfordringen med episodisk læring.

Hvordan fungerer det?

TD-læring fungerer gjennom en enkel sløyfe:

  1. Estimer verdien: agenten starter med et innledende anslag på hvor god den nåværende tilstanden er;
  2. Utfør en handling: den utfører en handling, mottar en belønning og havner i en ny tilstand;
  3. Oppdater anslaget: ved å bruke belønningen og verdien til den nye tilstanden, justerer agenten sitt opprinnelige anslag litt for å gjøre det mer nøyaktig;
  4. Gjenta: over tid, ved å gjenta denne sløyfen, bygger agenten gradvis bedre og mer nøyaktige verdianslag for ulike tilstander.

Sammenligningstabell

question mark

Hvordan kombinerer Temporal Difference-læring styrkene til dynamisk programmering og Monte Carlo-metoder?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 1
some-alt