Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Generalisering af TD-Læring
Indtil nu har vi betragtet to ekstreme tilfælde af læring fra erfaring:
- TD(0): anvender ét-trins afkast;
- Monte Carlo: venter til slutningen af episoden for at beregne afkastet.
Men hvad hvis vi ønsker noget midt imellem? Noget der udnytter mere fremtidig information end TD(0), men som ikke behøver at vente på hele episoden som Monte Carlo?
Her kommer -trins TD-læring og TD() ind i billedet — metoder, der forener og generaliserer de idéer, vi hidtil har set.
-Trins TD-læring
Idéen bag -trins TD-læring er enkel: i stedet for kun at bruge det næste trin eller hele episoden, anvender vi de næste trin, og anvender derefter bootstrapping:
Dette muliggør en afvejning:
- Når : svarer det til TD(0);
- Når : bliver det Monte Carlo.
Disse afkast kan derefter bruges til at erstatte målet i TD(0) opdateringsreglen:
TD()
TD() er en smart idé, der bygger oven på -trins TD-læring: i stedet for at vælge et fast , kombinerer vi alle -trins afkast sammen:
hvor styrer vægtningen:
- Hvis : kun ét-trins afkast TD(0);
- Hvis : fuldt afkast Monte Carlo;
- Mellem-værdier blander flere trins afkast.
Så fungerer som en bias-varians afvejning:
- Lav : mere bias, mindre varians;
- Høj : mindre bias, mere varians.
kan derefter bruges som opdateringsmål i TD(0)-opdateringsreglen:
Tak for dine kommentarer!