Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Episoder och Avkastning | RL Kärnteori
Introduktion till Förstärkningsinlärning

bookEpisoder och Avkastning

Uppgiftens längd

RL-uppgifter kategoriseras vanligtvis som episodiska eller kontinuerliga, beroende på hur inlärningsprocessen är strukturerad över tid.

Note
Definition

Episod är en fullständig sekvens av interaktioner mellan agenten och miljön, som börjar från ett initialt tillstånd och fortskrider genom en serie övergångar tills ett terminalt tillstånd uppnås.

Episodiska uppgifter är sådana som består av en ändlig sekvens av tillstånd, handlingar och belöningar, där agentens interaktion med miljön delas upp i särskilda episoder.

Till skillnad från detta har kontinuerliga uppgifter inte något tydligt slut på varje interaktionscykel. Agenten interagerar kontinuerligt med miljön utan att återställas till ett initialt tillstånd, och inlärningsprocessen pågår ofta utan en tydlig slutpunkt.

Avkastning

Du vet redan att agentens huvudsakliga mål är att maximera ackumulerade belöningar. Medan belöningsfunktionen ger omedelbara belöningar, tar den inte hänsyn till framtida utfall, vilket kan vara problematiskt. En agent som enbart tränas för att maximera omedelbara belöningar kan förbise långsiktiga fördelar. För att hantera detta introducerar vi begreppet avkastning.

Note
Definition

Return GG är den totala ackumulerade belöningen som en agent erhåller från ett givet tillstånd och framåt, vilket inkluderar alla belöningar den kommer att få i framtiden, inte bara omedelbart.

Return är en bättre representation av hur bra ett visst tillstånd eller en viss handling är på lång sikt. Målet med förstärkningsinlärning kan nu definieras som att maximera return.

Om TT är det sista tidssteget ser formeln för return ut så här:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Medan enkel avkastning fungerar som ett bra mål i episodiska uppgifter, uppstår ett problem i kontinuerliga uppgifter. Om antalet tidssteg är oändligt, kan avkastningen själv bli oändlig. För att hantera detta används en diskonteringsfaktor för att säkerställa att framtida belöningar ges mindre vikt, vilket förhindrar att avkastningen blir oändlig.

Note
Definition

Diskonteringsfaktor γ\gamma är en multiplikativ faktor som används för att bestämma nuvärdet av framtida belöningar. Den varierar mellan 0 och 1, där ett värde närmare 0 gör att agenten prioriterar omedelbara belöningar, medan ett värde närmare 1 gör att agenten beaktar framtida belöningar mer betydelsefullt.

Avkastning kombinerad med en diskonteringsfaktor kallas diskonterad avkastning.

Formeln för diskonterad avkastning ser ut så här:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studera vidare

Även i episodiska uppgifter ger användning av en diskonteringsfaktor praktiska fördelar: det motiverar agenten att nå sitt mål så snabbt som möjligt, vilket leder till mer effektivt beteende. Av denna anledning används diskontering ofta även i tydligt episodiska sammanhang.

question mark

Vad representerar diskonteringsfaktorn γ\gamma?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain what the discount factor γ represents?

What are some examples of episodic and continuous tasks in real life?

Why is it important to use discounted return in reinforcement learning?

Awesome!

Completion rate improved to 2.7

bookEpisoder och Avkastning

Svep för att visa menyn

Uppgiftens längd

RL-uppgifter kategoriseras vanligtvis som episodiska eller kontinuerliga, beroende på hur inlärningsprocessen är strukturerad över tid.

Note
Definition

Episod är en fullständig sekvens av interaktioner mellan agenten och miljön, som börjar från ett initialt tillstånd och fortskrider genom en serie övergångar tills ett terminalt tillstånd uppnås.

Episodiska uppgifter är sådana som består av en ändlig sekvens av tillstånd, handlingar och belöningar, där agentens interaktion med miljön delas upp i särskilda episoder.

Till skillnad från detta har kontinuerliga uppgifter inte något tydligt slut på varje interaktionscykel. Agenten interagerar kontinuerligt med miljön utan att återställas till ett initialt tillstånd, och inlärningsprocessen pågår ofta utan en tydlig slutpunkt.

Avkastning

Du vet redan att agentens huvudsakliga mål är att maximera ackumulerade belöningar. Medan belöningsfunktionen ger omedelbara belöningar, tar den inte hänsyn till framtida utfall, vilket kan vara problematiskt. En agent som enbart tränas för att maximera omedelbara belöningar kan förbise långsiktiga fördelar. För att hantera detta introducerar vi begreppet avkastning.

Note
Definition

Return GG är den totala ackumulerade belöningen som en agent erhåller från ett givet tillstånd och framåt, vilket inkluderar alla belöningar den kommer att få i framtiden, inte bara omedelbart.

Return är en bättre representation av hur bra ett visst tillstånd eller en viss handling är på lång sikt. Målet med förstärkningsinlärning kan nu definieras som att maximera return.

Om TT är det sista tidssteget ser formeln för return ut så här:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Medan enkel avkastning fungerar som ett bra mål i episodiska uppgifter, uppstår ett problem i kontinuerliga uppgifter. Om antalet tidssteg är oändligt, kan avkastningen själv bli oändlig. För att hantera detta används en diskonteringsfaktor för att säkerställa att framtida belöningar ges mindre vikt, vilket förhindrar att avkastningen blir oändlig.

Note
Definition

Diskonteringsfaktor γ\gamma är en multiplikativ faktor som används för att bestämma nuvärdet av framtida belöningar. Den varierar mellan 0 och 1, där ett värde närmare 0 gör att agenten prioriterar omedelbara belöningar, medan ett värde närmare 1 gör att agenten beaktar framtida belöningar mer betydelsefullt.

Avkastning kombinerad med en diskonteringsfaktor kallas diskonterad avkastning.

Formeln för diskonterad avkastning ser ut så här:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studera vidare

Även i episodiska uppgifter ger användning av en diskonteringsfaktor praktiska fördelar: det motiverar agenten att nå sitt mål så snabbt som möjligt, vilket leder till mer effektivt beteende. Av denna anledning används diskontering ofta även i tydligt episodiska sammanhang.

question mark

Vad representerar diskonteringsfaktorn γ\gamma?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4
some-alt