Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Episoder och Belöningar | RL Kärnteori
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Episoder och Belöningar

Uppgiftens längd

RL-uppgifter kategoriseras vanligtvis som episodiska eller kontinuerliga, beroende på hur inlärningsprocessen är strukturerad över tid.

Note
Definition

Episod är en fullständig sekvens av interaktioner mellan agenten och miljön, som börjar från ett initialt tillstånd och fortskrider genom en serie övergångar tills ett terminalt tillstånd uppnås.

Episodiska uppgifter är sådana som består av en ändlig sekvens av tillstånd, handlingar och belöningar, där agentens interaktion med miljön är uppdelad i särskilda episoder.

Till skillnad från detta har kontinuerliga uppgifter ingen tydlig slutpunkt för varje interaktionscykel. Agenten interagerar kontinuerligt med miljön utan att återställas till ett initialt tillstånd, och inlärningsprocessen pågår fortlöpande, ofta utan en tydlig terminalpunkt.

Avkastning

Du vet redan att agentens huvudsakliga mål är att maximera ackumulerade belöningar. Medan belöningsfunktionen ger omedelbara belöningar, tar den inte hänsyn till framtida utfall, vilket kan vara problematiskt. En agent som tränas enbart för att maximera omedelbara belöningar kan förbise långsiktiga fördelar. För att hantera detta introducerar vi begreppet avkastning.

Note
Definition

Avkastning GG är den totala ackumulerade belöningen som en agent erhåller från ett givet tillstånd och framåt, vilket inkluderar alla belöningar den kommer att få i framtiden, inte bara omedelbart.

Avkastningen är en bättre representation av hur bra ett visst tillstånd eller en viss handling är på lång sikt. Målet med förstärkningsinlärning kan nu definieras som att maximera avkastningen.

Om TT är det sista tidssteget, ser formeln för avkastning ut så här:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Medan enkel avkastning fungerar som ett bra mål i episodiska uppgifter, uppstår ett problem i kontinuerliga uppgifter. Om antalet tidssteg är oändligt, kan avkastningen själv bli oändlig. För att hantera detta används en diskonteringsfaktor för att säkerställa att framtida belöningar ges mindre vikt, vilket förhindrar att avkastningen blir oändlig.

Note
Definition

Diskonteringsfaktor γ\gamma är en multiplikativ faktor som används för att bestämma nuvärdet av framtida belöningar. Den varierar mellan 0 och 1, där ett värde närmare 0 får agenten att prioritera omedelbara belöningar, medan ett värde närmare 1 gör att agenten tar större hänsyn till framtida belöningar.

Return kombinerad med en diskonteringsfaktor kallas diskonterad return.

Formeln för diskonterad return ser ut så här:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studera vidare

Även i episodiska uppgifter ger användningen av en diskonteringsfaktor praktiska fördelar: det motiverar agenten att nå sitt mål så snabbt som möjligt, vilket leder till mer effektivt beteende. Av denna anledning tillämpas diskontering ofta även i tydligt episodiska sammanhang.

question mark

Vad representerar diskonteringsfaktorn γ\gamma?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Episoder och Belöningar

Uppgiftens längd

RL-uppgifter kategoriseras vanligtvis som episodiska eller kontinuerliga, beroende på hur inlärningsprocessen är strukturerad över tid.

Note
Definition

Episod är en fullständig sekvens av interaktioner mellan agenten och miljön, som börjar från ett initialt tillstånd och fortskrider genom en serie övergångar tills ett terminalt tillstånd uppnås.

Episodiska uppgifter är sådana som består av en ändlig sekvens av tillstånd, handlingar och belöningar, där agentens interaktion med miljön är uppdelad i särskilda episoder.

Till skillnad från detta har kontinuerliga uppgifter ingen tydlig slutpunkt för varje interaktionscykel. Agenten interagerar kontinuerligt med miljön utan att återställas till ett initialt tillstånd, och inlärningsprocessen pågår fortlöpande, ofta utan en tydlig terminalpunkt.

Avkastning

Du vet redan att agentens huvudsakliga mål är att maximera ackumulerade belöningar. Medan belöningsfunktionen ger omedelbara belöningar, tar den inte hänsyn till framtida utfall, vilket kan vara problematiskt. En agent som tränas enbart för att maximera omedelbara belöningar kan förbise långsiktiga fördelar. För att hantera detta introducerar vi begreppet avkastning.

Note
Definition

Avkastning GG är den totala ackumulerade belöningen som en agent erhåller från ett givet tillstånd och framåt, vilket inkluderar alla belöningar den kommer att få i framtiden, inte bara omedelbart.

Avkastningen är en bättre representation av hur bra ett visst tillstånd eller en viss handling är på lång sikt. Målet med förstärkningsinlärning kan nu definieras som att maximera avkastningen.

Om TT är det sista tidssteget, ser formeln för avkastning ut så här:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Medan enkel avkastning fungerar som ett bra mål i episodiska uppgifter, uppstår ett problem i kontinuerliga uppgifter. Om antalet tidssteg är oändligt, kan avkastningen själv bli oändlig. För att hantera detta används en diskonteringsfaktor för att säkerställa att framtida belöningar ges mindre vikt, vilket förhindrar att avkastningen blir oändlig.

Note
Definition

Diskonteringsfaktor γ\gamma är en multiplikativ faktor som används för att bestämma nuvärdet av framtida belöningar. Den varierar mellan 0 och 1, där ett värde närmare 0 får agenten att prioritera omedelbara belöningar, medan ett värde närmare 1 gör att agenten tar större hänsyn till framtida belöningar.

Return kombinerad med en diskonteringsfaktor kallas diskonterad return.

Formeln för diskonterad return ser ut så här:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studera vidare

Även i episodiska uppgifter ger användningen av en diskonteringsfaktor praktiska fördelar: det motiverar agenten att nå sitt mål så snabbt som möjligt, vilket leder till mer effektivt beteende. Av denna anledning tillämpas diskontering ofta även i tydligt episodiska sammanhang.

question mark

Vad representerar diskonteringsfaktorn γ\gamma?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4
some-alt