Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Episoder och Avkastning | Grundläggande RL-Teori
Introduktion till Förstärkningsinlärning

bookEpisoder och Avkastning

Uppgiftens längd

RL-uppgifter kategoriseras vanligtvis som episodiska eller kontinuerliga, beroende på hur inlärningsprocessen är strukturerad över tid.

Note
Definition

Episod är en fullständig sekvens av interaktioner mellan agenten och miljön, som börjar från ett initialt tillstånd och fortskrider genom en serie övergångar tills ett terminalt tillstånd uppnås.

Episodiska uppgifter är sådana som består av en ändlig sekvens av tillstånd, handlingar och belöningar, där agentens interaktion med miljön delas upp i tydliga episoder.

Till skillnad från detta har kontinuerliga uppgifter inte något tydligt slut på varje interaktionscykel. Agenten interagerar kontinuerligt med miljön utan att återställas till ett initialt tillstånd, och inlärningsprocessen pågår ofta utan en tydlig slutpunkt.

Avkastning

Du vet redan att agentens huvudsakliga mål är att maximera kumulativa belöningar. Medan belöningsfunktionen ger omedelbara belöningar, tar den inte hänsyn till framtida utfall, vilket kan vara problematiskt. En agent som tränas enbart för att maximera omedelbara belöningar kan förbise långsiktiga fördelar. För att hantera detta introducerar vi begreppet avkastning.

Note
Definition

Avkastning GG är den totala ackumulerade belöningen som en agent erhåller från ett givet tillstånd och framåt, vilket inkluderar alla belöningar den kommer att få i framtiden, inte bara omedelbart.

Avkastningen är en bättre representation av hur bra ett visst tillstånd eller en viss handling är på lång sikt. Målet med förstärkningsinlärning kan nu definieras som att maximera avkastningen.

Om TT är det sista tidssteget ser formeln för avkastning ut så här:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Medan enkel avkastning fungerar som ett bra mål i episodiska uppgifter, uppstår ett problem i kontinuerliga uppgifter. Om antalet tidssteg är oändligt, kan avkastningen själv bli oändlig. För att hantera detta används en diskonteringsfaktor för att säkerställa att framtida belöningar ges mindre vikt, vilket förhindrar att avkastningen blir oändlig.

Note
Definition

Diskonteringsfaktor γ\gamma är en multiplikativ faktor som används för att bestämma nuvärdet av framtida belöningar. Den varierar mellan 0 och 1, där ett värde närmare 0 får agenten att prioritera omedelbara belöningar, medan ett värde närmare 1 får agenten att ta större hänsyn till framtida belöningar.

Return kombinerat med en diskonteringsfaktor kallas diskonterad return.

Formeln för diskonterad return ser ut så här:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studera vidare

Även i episodiska uppgifter ger användning av en diskonteringsfaktor praktiska fördelar: det motiverar agenten att nå sitt mål så snabbt som möjligt, vilket leder till mer effektivt beteende. Av denna anledning används diskontering ofta även i tydligt episodiska sammanhang.

question mark

Vad representerar diskonteringsfaktorn γ\gamma?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain what the discount factor γ represents?

What are some examples of episodic and continuous tasks in real life?

Why is it important to use discounted return in reinforcement learning?

Awesome!

Completion rate improved to 2.7

bookEpisoder och Avkastning

Svep för att visa menyn

Uppgiftens längd

RL-uppgifter kategoriseras vanligtvis som episodiska eller kontinuerliga, beroende på hur inlärningsprocessen är strukturerad över tid.

Note
Definition

Episod är en fullständig sekvens av interaktioner mellan agenten och miljön, som börjar från ett initialt tillstånd och fortskrider genom en serie övergångar tills ett terminalt tillstånd uppnås.

Episodiska uppgifter är sådana som består av en ändlig sekvens av tillstånd, handlingar och belöningar, där agentens interaktion med miljön delas upp i tydliga episoder.

Till skillnad från detta har kontinuerliga uppgifter inte något tydligt slut på varje interaktionscykel. Agenten interagerar kontinuerligt med miljön utan att återställas till ett initialt tillstånd, och inlärningsprocessen pågår ofta utan en tydlig slutpunkt.

Avkastning

Du vet redan att agentens huvudsakliga mål är att maximera kumulativa belöningar. Medan belöningsfunktionen ger omedelbara belöningar, tar den inte hänsyn till framtida utfall, vilket kan vara problematiskt. En agent som tränas enbart för att maximera omedelbara belöningar kan förbise långsiktiga fördelar. För att hantera detta introducerar vi begreppet avkastning.

Note
Definition

Avkastning GG är den totala ackumulerade belöningen som en agent erhåller från ett givet tillstånd och framåt, vilket inkluderar alla belöningar den kommer att få i framtiden, inte bara omedelbart.

Avkastningen är en bättre representation av hur bra ett visst tillstånd eller en viss handling är på lång sikt. Målet med förstärkningsinlärning kan nu definieras som att maximera avkastningen.

Om TT är det sista tidssteget ser formeln för avkastning ut så här:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Medan enkel avkastning fungerar som ett bra mål i episodiska uppgifter, uppstår ett problem i kontinuerliga uppgifter. Om antalet tidssteg är oändligt, kan avkastningen själv bli oändlig. För att hantera detta används en diskonteringsfaktor för att säkerställa att framtida belöningar ges mindre vikt, vilket förhindrar att avkastningen blir oändlig.

Note
Definition

Diskonteringsfaktor γ\gamma är en multiplikativ faktor som används för att bestämma nuvärdet av framtida belöningar. Den varierar mellan 0 och 1, där ett värde närmare 0 får agenten att prioritera omedelbara belöningar, medan ett värde närmare 1 får agenten att ta större hänsyn till framtida belöningar.

Return kombinerat med en diskonteringsfaktor kallas diskonterad return.

Formeln för diskonterad return ser ut så här:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studera vidare

Även i episodiska uppgifter ger användning av en diskonteringsfaktor praktiska fördelar: det motiverar agenten att nå sitt mål så snabbt som möjligt, vilket leder till mer effektivt beteende. Av denna anledning används diskontering ofta även i tydligt episodiska sammanhang.

question mark

Vad representerar diskonteringsfaktorn γ\gamma?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4
some-alt