Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Inkrementella Implementationer
Att lagra varje avkastning för varje tillstånd-aktionspar kan snabbt förbruka minne och avsevärt öka beräkningstiden — särskilt i stora miljöer. Denna begränsning påverkar både on-policy och off-policy Monte Carlo-kontrollalgoritmer. För att hantera detta använder vi inkrementella beräkningsstrategier, liknande de som används i multi-armed bandit-algoritmer. Dessa metoder möjliggör att värdeuppskattningar uppdateras direkt, utan att hela avkastningshistoriken behöver sparas.
On-policy Monte Carlo-kontroll
För on-policy-metoden liknar uppdateringsstrategin den som används i MAB-algoritmer:
där för medelvärdesuppskattning. De enda värden som behöver sparas är de aktuella uppskattningarna av aktionsvärden och antalet gånger tillstånd-aktionsparet har besökts .
Pseudokod
Off-policy Monte Carlo-kontroll
För off-policy-metoden med ordinär importance sampling är allt detsamma som för on-policy-metoden.
En mer intressant situation uppstår med viktad importance sampling. Ekvationen ser likadan ut:
men kan inte användas eftersom:
- Varje return är viktad med ;
- Den slutliga summan delas inte med , utan med .
Värdet på som faktiskt kan användas i detta fall är lika med där:
- är för den aktuella trajektorien;
- är lika med .
Och varje gång tillstånd-aktionsparet uppstår, adderas för den aktuella trajektorien till :
Pseudokod
Tack för dina kommentarer!