Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära TD(0): Värdefunktionsuppskattning | Temporär Differensinlärning
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
TD(0): Värdefunktionsuppskattning

Den enklaste versionen av TD-inlärning kallas TD(0). Den uppdaterar värdet för ett tillstånd baserat på den omedelbara belöningen och det uppskattade värdet av nästa tillstånd. Det är en enstegs TD-metod.

Uppdateringsregel

Givet ett tillstånd StS_t, belöning Rt+1R_{t+1} och nästa tillstånd St+1S_{t+1}, ser uppdateringsregeln ut så här:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

där

  • α\alpha är en inlärningshastighet, eller steglängd;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) är ett TD-fel.

Intuition

Tillståndsvärdesfunktionen vπv_\pi kan definieras och utvecklas enligt följande:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Detta ger den första delen av δt\delta_t — den upplevda avkastningen Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Och den andra delen av δt\delta_t är den förväntade avkastningen V(St)V(S_t). TD-felet δt\delta_t​ är alltså den observerbara skillnaden mellan vad som faktiskt hände och vad vi tidigare trodde skulle hända. Uppdateringsregeln justerar därför den tidigare tron något vid varje steg, vilket gör den närmare sanningen.

TD(0) vs Monte Carlo-estimering

Både TD(0) och Monte Carlo-estimering använder samplad erfarenhet för att uppskatta tillståndsvärdesfunktionen vπ(s)v_\pi(s) för en policy π\pi. Under standardkonvergensvillkor konvergerar båda till det sanna vπ(s)v_\pi(s) när antalet besök i varje tillstånd går mot oändligheten. I praktiken har vi dock alltid en begränsad mängd data, och de två metoderna skiljer sig avsevärt i hur de använder denna data och hur snabbt de lär sig.

Avvägning mellan bias och varians

Ur ett bias–varians-avvägningsperspektiv:

Monte Carlo-estimering väntar tills ett avsnitt är slut och använder sedan den fullständiga avkastningen för att uppdatera värdena. Detta ger oberoende skattningar — avkastningarna speglar verkligen den underliggande fördelningen — men de kan variera kraftigt, särskilt i långa eller mycket stokastiska uppgifter. Hög varians innebär att många avsnitt krävs för att medelvärdesbilda bort brus och erhålla stabila värdeskattningar.

TD(0) använder bootstrap genom att kombinera varje enstegsbelöning med den aktuella uppskattningen av nästa tillstånds värde. Detta introducerar bias — tidiga uppdateringar bygger på ofullständiga uppskattningar — men håller variansen låg, eftersom varje uppdatering baseras på ett litet, inkrementellt fel. Lägre varians gör att TD(0) kan sprida belöningsinformation genom tillståndsutrymmet snabbare, även om initial bias kan sakta ner konvergensen.

Lärande av data vs lärande av modell

Ett annat sätt att betrakta dessa två metoder är att analysera vad var och en faktiskt lär sig:

Monte Carlo-estimering lär sig direkt från observerade avkastningar och anpassar effektivt sina värdeskattningar till de specifika avsnitt den har sett. Detta innebär att den minimerar fel på dessa träningssekvenser, men eftersom den aldrig bygger en explicit bild av hur tillstånd leder till varandra kan den ha svårt att generalisera till nya eller något annorlunda situationer.

TD(0), däremot, använder bootstrap vid varje enstegstransition och kombinerar den omedelbara belöningen med sin uppskattning av nästa tillstånds värde. På så sätt fångar den effektivt relationerna mellan tillstånd — en implicit modell av miljöns dynamik. Denna modell-liknande förståelse gör att TD(0) kan generalisera bättre till osedda transitioner och ofta ge mer exakta värdeskattningar på ny data.

Pseudokod

question mark

Hur kan du beskriva TD(0) i termer av bias och varians?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 2

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
TD(0): Värdefunktionsuppskattning

Den enklaste versionen av TD-inlärning kallas TD(0). Den uppdaterar värdet för ett tillstånd baserat på den omedelbara belöningen och det uppskattade värdet av nästa tillstånd. Det är en enstegs TD-metod.

Uppdateringsregel

Givet ett tillstånd StS_t, belöning Rt+1R_{t+1} och nästa tillstånd St+1S_{t+1}, ser uppdateringsregeln ut så här:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

där

  • α\alpha är en inlärningshastighet, eller steglängd;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) är ett TD-fel.

Intuition

Tillståndsvärdesfunktionen vπv_\pi kan definieras och utvecklas enligt följande:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Detta ger den första delen av δt\delta_t — den upplevda avkastningen Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Och den andra delen av δt\delta_t är den förväntade avkastningen V(St)V(S_t). TD-felet δt\delta_t​ är alltså den observerbara skillnaden mellan vad som faktiskt hände och vad vi tidigare trodde skulle hända. Uppdateringsregeln justerar därför den tidigare tron något vid varje steg, vilket gör den närmare sanningen.

TD(0) vs Monte Carlo-estimering

Både TD(0) och Monte Carlo-estimering använder samplad erfarenhet för att uppskatta tillståndsvärdesfunktionen vπ(s)v_\pi(s) för en policy π\pi. Under standardkonvergensvillkor konvergerar båda till det sanna vπ(s)v_\pi(s) när antalet besök i varje tillstånd går mot oändligheten. I praktiken har vi dock alltid en begränsad mängd data, och de två metoderna skiljer sig avsevärt i hur de använder denna data och hur snabbt de lär sig.

Avvägning mellan bias och varians

Ur ett bias–varians-avvägningsperspektiv:

Monte Carlo-estimering väntar tills ett avsnitt är slut och använder sedan den fullständiga avkastningen för att uppdatera värdena. Detta ger oberoende skattningar — avkastningarna speglar verkligen den underliggande fördelningen — men de kan variera kraftigt, särskilt i långa eller mycket stokastiska uppgifter. Hög varians innebär att många avsnitt krävs för att medelvärdesbilda bort brus och erhålla stabila värdeskattningar.

TD(0) använder bootstrap genom att kombinera varje enstegsbelöning med den aktuella uppskattningen av nästa tillstånds värde. Detta introducerar bias — tidiga uppdateringar bygger på ofullständiga uppskattningar — men håller variansen låg, eftersom varje uppdatering baseras på ett litet, inkrementellt fel. Lägre varians gör att TD(0) kan sprida belöningsinformation genom tillståndsutrymmet snabbare, även om initial bias kan sakta ner konvergensen.

Lärande av data vs lärande av modell

Ett annat sätt att betrakta dessa två metoder är att analysera vad var och en faktiskt lär sig:

Monte Carlo-estimering lär sig direkt från observerade avkastningar och anpassar effektivt sina värdeskattningar till de specifika avsnitt den har sett. Detta innebär att den minimerar fel på dessa träningssekvenser, men eftersom den aldrig bygger en explicit bild av hur tillstånd leder till varandra kan den ha svårt att generalisera till nya eller något annorlunda situationer.

TD(0), däremot, använder bootstrap vid varje enstegstransition och kombinerar den omedelbara belöningen med sin uppskattning av nästa tillstånds värde. På så sätt fångar den effektivt relationerna mellan tillstånd — en implicit modell av miljöns dynamik. Denna modell-liknande förståelse gör att TD(0) kan generalisera bättre till osedda transitioner och ofta ge mer exakta värdeskattningar på ny data.

Pseudokod

question mark

Hur kan du beskriva TD(0) i termer av bias och varians?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 2
some-alt