Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Episoder og Afkast | RL Kerneprincipper
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Episoder og Afkast

Opgavens længde

RL-opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.

Note
Definition

Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initial tilstand og fortsætter gennem en række overgange, indtil en terminal tilstand opnås.

Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i adskilte episoder.

I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.

Returnering

Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problematiske. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.

Note
Definition

Return GG er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.

Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som at maksimere return.

Hvis TT er det sidste tidssteg, ser formlen for return således ud:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Selvom simpel return fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tidssteg er uendeligt, kan return i sig selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes lavere, hvilket forhindrer return i at blive uendelig.

Note
Definition

Diskonteringsfaktor γ\gamma er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.

Return kombineret med en diskonteringsfaktor kaldes diskonteret return.

Formlen for diskonteret return ser således ud:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studér Mere

Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte, selv i klart episodiske situationer.

question mark

Hvad repræsenterer diskonteringsfaktoren γ\gamma?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 4

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Episoder og Afkast

Opgavens længde

RL-opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.

Note
Definition

Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initial tilstand og fortsætter gennem en række overgange, indtil en terminal tilstand opnås.

Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i adskilte episoder.

I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.

Returnering

Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problematiske. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.

Note
Definition

Return GG er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.

Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som at maksimere return.

Hvis TT er det sidste tidssteg, ser formlen for return således ud:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Selvom simpel return fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tidssteg er uendeligt, kan return i sig selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes lavere, hvilket forhindrer return i at blive uendelig.

Note
Definition

Diskonteringsfaktor γ\gamma er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.

Return kombineret med en diskonteringsfaktor kaldes diskonteret return.

Formlen for diskonteret return ser således ud:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studér Mere

Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte, selv i klart episodiske situationer.

question mark

Hvad repræsenterer diskonteringsfaktoren γ\gamma?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 4
some-alt