Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Generalisering av TD-læring
Til nå har vi vurdert to ytterpunkter for læring fra erfaring:
- TD(0): bruker ettstegs retur;
- Monte Carlo: venter til slutten av episoden for å beregne returverdien.
Men hva om vi ønsker noe midt imellom? Noe som utnytter mer fremtidig informasjon enn TD(0), men som ikke trenger å vente til hele episoden er ferdig slik som Monte Carlo?
Dette er hvor -stegs TD-læring og TD() kommer inn — metoder som forener og generaliserer ideene vi har sett så langt.
-stegs TD-læring
Ideen bak -stegs TD-læring er enkel: i stedet for å bruke bare neste steg eller hele episoden, bruker vi de neste stegene, og deretter bootstrapper vi:
Dette gir en avveining:
- Når : er det bare TD(0);
- Når : blir det Monte Carlo.
Disse returverdiene kan deretter brukes til å erstatte målet i TD(0)-oppdateringsregelen:
TD()
TD() er et smart konsept som bygger videre på -stegs TD-læring: i stedet for å velge en fast , kombinerer vi alle -stegs avkastninger sammen:
hvor styrer vektingen:
- Hvis : kun ett-stegs avkastning TD(0);
- Hvis : full avkastning Monte Carlo;
- Mellomverdier blander flere stegs avkastninger.
Dermed fungerer som en bias-varians-justering:
- Lav : mer bias, mindre varians;
- Høy : mindre bias, mer varians.
kan deretter brukes som oppdateringsmål i TD(0)-oppdateringsregelen:
Takk for tilbakemeldingene dine!