Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Generalisering av TD-inlärning
Hittills har vi betraktat två extrema fall av inlärning från erfarenhet:
- TD(0): använder ettstegsavkastning;
- Monte Carlo: väntar till slutet av episoden för att beräkna avkastningen.
Men vad händer om vi vill ha något däremellan? Något som utnyttjar mer framtida information än TD(0), men som inte behöver vänta på hela episoden som Monte Carlo?
Det är här -stegs TD-inlärning och TD() kommer in — metoder som förenar och generaliserar de idéer vi hittills har sett.
-stegs TD-inlärning
Idén bakom -stegs TD-inlärning är enkel: istället för att använda bara nästa steg eller hela episoden, använder vi nästa steg, och därefter bootstrapping:
Detta möjliggör en avvägning:
- När : är det bara TD(0);
- När : blir det Monte Carlo.
Denna avkastning kan sedan användas för att ersätta målet i TD(0)-uppdateringsregeln:
TD()
TD() är en smart idé som bygger vidare på -stegs TD-inlärning: istället för att välja ett fast , kombinerar vi alla -stegsavkastningar tillsammans:
där styr viktningen:
- Om : endast enstegsavkastning TD(0);
- Om : fullständig avkastning Monte Carlo;
- Mellanvärden blandar flera stegsavkastningar.
Så fungerar som en reglage för bias-varianskompromiss:
- Låg : mer bias, mindre varians;
- Hög : mindre bias, mer varians.
kan sedan användas som uppdateringsmål i TD(0)-uppdateringsregeln:
Tack för dina kommentarer!