Lära TD(0): Värdefunktionsuppskattning | Temporär Differensinlärning

Den enklaste versionen av TD-inlärning kallas TD(0). Den uppdaterar värdet för ett tillstånd baserat på den omedelbara belöningen och det uppskattade värdet för nästa tillstånd. Det är en enstegs TD-metod.

Uppdateringsregel

Givet ett tillstånd $S_t$ , belöning $R_{t+1}$ och nästa tillstånd $S_{t+1}$ , ser uppdateringsregeln ut så här:

V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

där

$\alpha$ är en inlärningshastighet, eller steglängd;
$\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t)$ är ett TD-fel.

Intuition

Tillståndsvärdesfunktionen $v_\pi$ kan definieras och utvecklas enligt följande:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Detta ger den första delen av $\delta_t$ — den upplevda avkastningen $R_{t+1} + \gamma V(S_{t+1})$ . Och den andra delen av $\delta_t$ är den förväntade avkastningen $V(S_t)$ . TD-felet $\delta_t$ är alltså den observerbara skillnaden mellan vad som faktiskt hände och vad vi tidigare trodde skulle hända. Uppdateringsregeln justerar därför den tidigare tron något vid varje steg, vilket gör den närmare sanningen.

TD(0) vs Monte Carlo-estimering

Både TD(0) och Monte Carlo-estimering använder samplad erfarenhet för att uppskatta tillståndsvärdesfunktionen $v_\pi(s)$ för en policy $\pi$ . Under standardvillkor för konvergens konvergerar båda till det sanna $v_\pi(s)$ när antalet besök i varje tillstånd går mot oändligheten. I praktiken har vi dock alltid en begränsad mängd data, och de två metoderna skiljer sig avsevärt i hur de använder denna data och hur snabbt de lär sig.

Avvägning mellan bias och varians

Ur ett bias–varians-avvägningsperspektiv:

Monte Carlo-estimering väntar tills ett avsnitt är slut och använder sedan hela avkastningen för att uppdatera värdena. Detta ger oberoende uppskattningar — avkastningarna speglar verkligen den underliggande fördelningen — men de kan variera kraftigt, särskilt i långa eller mycket stokastiska uppgifter. Hög varians innebär att många avsnitt krävs för att jämna ut bruset och erhålla stabila värdeuppskattningar.

TD(0) använder bootstrap genom att kombinera varje enstegsbelöning med den aktuella uppskattningen av nästa tillstånds värde. Detta introducerar bias — tidiga uppdateringar bygger på ofullständiga uppskattningar — men håller variansen låg, eftersom varje uppdatering baseras på ett litet, inkrementellt fel. Lägre varians gör att TD(0) kan sprida belöningsinformation genom tillståndsrymden snabbare, även om initial bias kan sakta ner konvergensen.

Lärande från data vs lärande av modell

Ett annat sätt att betrakta dessa två metoder är att analysera vad var och en faktiskt lär sig:

Monte Carlo-estimering lär sig direkt från observerade avkastningar och anpassar sina värdeuppskattningar till de specifika avsnitt den har sett. Detta innebär att den minimerar fel på dessa träningssekvenser, men eftersom den aldrig bygger en explicit bild av hur tillstånd leder till varandra kan den ha svårt att generalisera till nya eller något annorlunda situationer.

TD(0), däremot, använder bootstrap på varje enstegstransition och kombinerar den omedelbara belöningen med sin uppskattning av nästa tillstånds värde. På så sätt fångar den effektivt relationerna mellan tillstånd — en implicit modell av miljöns dynamik. Denna modell-liknande förståelse gör att TD(0) kan generalisera bättre till osedda övergångar och ofta ge mer exakta värdeuppskattningar på ny data.

Pseudokod

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 2

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain the main differences between TD(0) and Monte Carlo methods in more detail?

How does the bias-variance tradeoff affect the choice between TD(0) and Monte Carlo?

Can you walk me through the TD(0) update rule with a concrete example?

Svep för att visa menyn