Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära TD(0): Värdefunktionsuppskattning | Temporär Differensinlärning
Introduktion till Förstärkningsinlärning

bookTD(0): Värdefunktionsuppskattning

Den enklaste versionen av TD-inlärning kallas TD(0). Den uppdaterar värdet för ett tillstånd baserat på den omedelbara belöningen och det uppskattade värdet för nästa tillstånd. Det är en enstegs TD-metod.

Uppdateringsregel

Givet ett tillstånd StS_t, belöning Rt+1R_{t+1} och nästa tillstånd St+1S_{t+1}, ser uppdateringsregeln ut så här:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

Där

  • α\alpha är inlärningshastigheten, eller steglängden;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) är TD-felet.

Intuition

Tillståndsvärdesfunktionen vπv_\pi kan definieras och utvecklas enligt följande:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Detta ger den första delen av δt\delta_t — den upplevda avkastningen Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Och den andra delen av δt\delta_t är den förväntade avkastningen V(St)V(S_t). TD-felet δt\delta_t​ är alltså den observerbara skillnaden mellan vad som faktiskt hände och vad vi tidigare trodde skulle hända. Uppdateringsregeln justerar därför den tidigare tron något vid varje steg, vilket gör den närmare sanningen.

TD(0) vs Monte Carlo-estimering

Både TD(0) och Monte Carlo-estimering använder samplad erfarenhet för att uppskatta tillståndsvärdesfunktionen vπ(s)v_\pi(s) för en policy π\pi. Under standardkonvergensvillkor konvergerar båda till det sanna vπ(s)v_\pi(s) när antalet besök i varje tillstånd går mot oändligheten. I praktiken har vi dock endast en begränsad mängd data, och de två metoderna skiljer sig avsevärt i hur de använder denna data och hur snabbt de lär sig.

Bias-variansavvägning

Ur ett bias–varians-avvägningsperspektiv:

Monte Carlo-estimering väntar tills ett avsnitt är slut och använder sedan hela avkastningen för att uppdatera värdena. Detta ger oberoende uppskattningar — avkastningarna speglar verkligen den underliggande fördelningen — men de kan variera kraftigt, särskilt i långa eller mycket stokastiska uppgifter. Hög varians innebär att många avsnitt krävs för att jämna ut bruset och erhålla stabila värdeuppskattningar.

TD(0) använder bootstrap genom att kombinera varje enstegsbelöning med den aktuella uppskattningen av nästa tillstånds värde. Detta introducerar bias — tidiga uppdateringar bygger på ofullständiga uppskattningar — men håller variansen låg, eftersom varje uppdatering baseras på ett litet, inkrementellt fel. Lägre varians gör att TD(0) kan sprida belöningsinformation genom tillståndsrymden snabbare, även om initial bias kan sakta ner konvergensen.

Lära från data kontra lära modell

Ett annat sätt att betrakta dessa två metoder är att analysera vad var och en faktiskt lär sig:

Monte Carlo-estimering lär sig direkt från observerade avkastningar och anpassar i praktiken sina värdeuppskattningar till de specifika avsnitt den har sett. Detta innebär att den minimerar felet på dessa träningssekvenser, men eftersom den aldrig bygger en explicit förståelse för hur tillstånd leder till varandra kan den ha svårt att generalisera till nya eller något annorlunda situationer.

TD(0), däremot, använder bootstrap vid varje enstegstransition och kombinerar den omedelbara belöningen med sin uppskattning av nästa tillstånds värde. På så sätt fångar den effektivt relationerna mellan tillstånd — en implicit modell av miljöns dynamik. Denna modell-liknande förståelse gör att TD(0) kan generalisera bättre till osedda transitioner och ofta ge mer exakta värdeuppskattningar på ny data.

Pseudokod

question mark

Hur kan du beskriva TD(0) i termer av bias och varians?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 2

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain the main differences between TD(0) and Monte Carlo methods in more detail?

How does the bias-variance tradeoff affect the choice between TD(0) and Monte Carlo?

Can you walk me through the TD(0) update rule with a concrete example?

Awesome!

Completion rate improved to 2.7

bookTD(0): Värdefunktionsuppskattning

Svep för att visa menyn

Den enklaste versionen av TD-inlärning kallas TD(0). Den uppdaterar värdet för ett tillstånd baserat på den omedelbara belöningen och det uppskattade värdet för nästa tillstånd. Det är en enstegs TD-metod.

Uppdateringsregel

Givet ett tillstånd StS_t, belöning Rt+1R_{t+1} och nästa tillstånd St+1S_{t+1}, ser uppdateringsregeln ut så här:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

Där

  • α\alpha är inlärningshastigheten, eller steglängden;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) är TD-felet.

Intuition

Tillståndsvärdesfunktionen vπv_\pi kan definieras och utvecklas enligt följande:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Detta ger den första delen av δt\delta_t — den upplevda avkastningen Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Och den andra delen av δt\delta_t är den förväntade avkastningen V(St)V(S_t). TD-felet δt\delta_t​ är alltså den observerbara skillnaden mellan vad som faktiskt hände och vad vi tidigare trodde skulle hända. Uppdateringsregeln justerar därför den tidigare tron något vid varje steg, vilket gör den närmare sanningen.

TD(0) vs Monte Carlo-estimering

Både TD(0) och Monte Carlo-estimering använder samplad erfarenhet för att uppskatta tillståndsvärdesfunktionen vπ(s)v_\pi(s) för en policy π\pi. Under standardkonvergensvillkor konvergerar båda till det sanna vπ(s)v_\pi(s) när antalet besök i varje tillstånd går mot oändligheten. I praktiken har vi dock endast en begränsad mängd data, och de två metoderna skiljer sig avsevärt i hur de använder denna data och hur snabbt de lär sig.

Bias-variansavvägning

Ur ett bias–varians-avvägningsperspektiv:

Monte Carlo-estimering väntar tills ett avsnitt är slut och använder sedan hela avkastningen för att uppdatera värdena. Detta ger oberoende uppskattningar — avkastningarna speglar verkligen den underliggande fördelningen — men de kan variera kraftigt, särskilt i långa eller mycket stokastiska uppgifter. Hög varians innebär att många avsnitt krävs för att jämna ut bruset och erhålla stabila värdeuppskattningar.

TD(0) använder bootstrap genom att kombinera varje enstegsbelöning med den aktuella uppskattningen av nästa tillstånds värde. Detta introducerar bias — tidiga uppdateringar bygger på ofullständiga uppskattningar — men håller variansen låg, eftersom varje uppdatering baseras på ett litet, inkrementellt fel. Lägre varians gör att TD(0) kan sprida belöningsinformation genom tillståndsrymden snabbare, även om initial bias kan sakta ner konvergensen.

Lära från data kontra lära modell

Ett annat sätt att betrakta dessa två metoder är att analysera vad var och en faktiskt lär sig:

Monte Carlo-estimering lär sig direkt från observerade avkastningar och anpassar i praktiken sina värdeuppskattningar till de specifika avsnitt den har sett. Detta innebär att den minimerar felet på dessa träningssekvenser, men eftersom den aldrig bygger en explicit förståelse för hur tillstånd leder till varandra kan den ha svårt att generalisera till nya eller något annorlunda situationer.

TD(0), däremot, använder bootstrap vid varje enstegstransition och kombinerar den omedelbara belöningen med sin uppskattning av nästa tillstånds värde. På så sätt fångar den effektivt relationerna mellan tillstånd — en implicit modell av miljöns dynamik. Denna modell-liknande förståelse gör att TD(0) kan generalisera bättre till osedda transitioner och ofta ge mer exakta värdeuppskattningar på ny data.

Pseudokod

question mark

Hur kan du beskriva TD(0) i termer av bias och varians?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 2
some-alt