Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
TD(0): Värdefunktionsuppskattning
Den enklaste versionen av TD-inlärning kallas TD(0). Den uppdaterar värdet för ett tillstånd baserat på den omedelbara belöningen och det uppskattade värdet av nästa tillstånd. Det är en enstegs TD-metod.
Uppdateringsregel
Givet ett tillstånd , belöning och nästa tillstånd , ser uppdateringsregeln ut så här:
där
- är en inlärningshastighet, eller steglängd;
- är ett TD-fel.
Intuition
Tillståndsvärdesfunktionen kan definieras och utvecklas enligt följande:
Detta ger den första delen av — den upplevda avkastningen . Och den andra delen av är den förväntade avkastningen . TD-felet är alltså den observerbara skillnaden mellan vad som faktiskt hände och vad vi tidigare trodde skulle hända. Uppdateringsregeln justerar därför den tidigare tron något vid varje steg, vilket gör den närmare sanningen.
TD(0) vs Monte Carlo-estimering
Både TD(0) och Monte Carlo-estimering använder samplad erfarenhet för att uppskatta tillståndsvärdesfunktionen för en policy . Under standardkonvergensvillkor konvergerar båda till det sanna när antalet besök i varje tillstånd går mot oändligheten. I praktiken har vi dock alltid en begränsad mängd data, och de två metoderna skiljer sig avsevärt i hur de använder denna data och hur snabbt de lär sig.
Avvägning mellan bias och varians
Ur ett bias–varians-avvägningsperspektiv:
Monte Carlo-estimering väntar tills ett avsnitt är slut och använder sedan den fullständiga avkastningen för att uppdatera värdena. Detta ger oberoende skattningar — avkastningarna speglar verkligen den underliggande fördelningen — men de kan variera kraftigt, särskilt i långa eller mycket stokastiska uppgifter. Hög varians innebär att många avsnitt krävs för att medelvärdesbilda bort brus och erhålla stabila värdeskattningar.
TD(0) använder bootstrap genom att kombinera varje enstegsbelöning med den aktuella uppskattningen av nästa tillstånds värde. Detta introducerar bias — tidiga uppdateringar bygger på ofullständiga uppskattningar — men håller variansen låg, eftersom varje uppdatering baseras på ett litet, inkrementellt fel. Lägre varians gör att TD(0) kan sprida belöningsinformation genom tillståndsutrymmet snabbare, även om initial bias kan sakta ner konvergensen.
Lärande av data vs lärande av modell
Ett annat sätt att betrakta dessa två metoder är att analysera vad var och en faktiskt lär sig:
Monte Carlo-estimering lär sig direkt från observerade avkastningar och anpassar effektivt sina värdeskattningar till de specifika avsnitt den har sett. Detta innebär att den minimerar fel på dessa träningssekvenser, men eftersom den aldrig bygger en explicit bild av hur tillstånd leder till varandra kan den ha svårt att generalisera till nya eller något annorlunda situationer.
TD(0), däremot, använder bootstrap vid varje enstegstransition och kombinerar den omedelbara belöningen med sin uppskattning av nästa tillstånds värde. På så sätt fångar den effektivt relationerna mellan tillstånd — en implicit modell av miljöns dynamik. Denna modell-liknande förståelse gör att TD(0) kan generalisera bättre till osedda transitioner och ofta ge mer exakta värdeskattningar på ny data.
Pseudokod
Tack för dina kommentarer!