Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Episoder og Afkast | RL Kerne Teori
Introduktion til Forstærkningslæring

bookEpisoder og Afkast

Opgavens længde

RL opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.

Note
Definition

Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initial tilstand og fortsætter gennem en række overgange, indtil en terminal tilstand er nået.

Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i adskilte episoder.

I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.

Returnering

Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problemisk. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.

Note
Definition

Return GG er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.

Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som maksimering af return.

Hvis TT er det sidste tidssteg, ser formlen for en return sådan ud:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Mens simpel returnering fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tids-trin er uendeligt, kan returneringen selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes mindre, hvilket forhindrer returneringen i at blive uendelig.

Note
Definition

Diskonteringsfaktor γ\gamma er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.

Return kombineret med en diskonteringsfaktor kaldes diskonteret return.

Formlen for diskonteret return ser således ud:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Læs mere

Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte selv i klart episodiske sammenhænge.

question mark

Hvad repræsenterer diskonteringsfaktoren γ\gamma?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 4

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain what the discount factor γ represents?

What are some examples of episodic and continuous tasks in real life?

Why is it important to use discounted return in reinforcement learning?

Awesome!

Completion rate improved to 2.7

bookEpisoder og Afkast

Stryg for at vise menuen

Opgavens længde

RL opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.

Note
Definition

Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initial tilstand og fortsætter gennem en række overgange, indtil en terminal tilstand er nået.

Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i adskilte episoder.

I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.

Returnering

Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problemisk. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.

Note
Definition

Return GG er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.

Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som maksimering af return.

Hvis TT er det sidste tidssteg, ser formlen for en return sådan ud:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Mens simpel returnering fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tids-trin er uendeligt, kan returneringen selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes mindre, hvilket forhindrer returneringen i at blive uendelig.

Note
Definition

Diskonteringsfaktor γ\gamma er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.

Return kombineret med en diskonteringsfaktor kaldes diskonteret return.

Formlen for diskonteret return ser således ud:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Læs mere

Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte selv i klart episodiske sammenhænge.

question mark

Hvad repræsenterer diskonteringsfaktoren γ\gamma?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 4
some-alt