Lære Episoder og Afkast | RL Kerne Teori

Opgavens længde

RL-opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.

Definition

Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initialtilstand og fortsætter gennem en række overgange, indtil en terminaltilstand opnås.

Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i separate episoder.

I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.

Returnering

Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problemisk. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.

Definition

Return $G$ er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.

Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som maksimering af return.

Hvis $T$ er det sidste tidssteg, ser formlen for en return således ud:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Mens simpel return fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tidssteg er uendeligt, kan return selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes lavere, hvilket forhindrer return i at blive uendelig.

Definition

Diskonteringsfaktor $\gamma$ er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.

Return kombineret med en diskonteringsfaktor kaldes diskonteret return.

Formlen for diskonteret return ser således ud:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Studér Mere

Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte selv i klart episodiske situationer.

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 4

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen

Opgavens længde

RL-opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.

Definition

Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i separate episoder.

Returnering

Definition

Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som maksimering af return.

Hvis $T$ er det sidste tidssteg, ser formlen for en return således ud:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Definition

Return kombineret med en diskonteringsfaktor kaldes diskonteret return.

Formlen for diskonteret return ser således ud:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Studér Mere

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 4