Lære Episoder og Avkastning | Kjerneprinsipper i RL

Oppgavens lengde

RL-oppgaver kategoriseres vanligvis som episodiske eller kontinuerlige, avhengig av hvordan læringsprosessen er strukturert over tid.

Definisjon

Episode er en fullstendig sekvens av interaksjoner mellom agenten og miljøet, som starter fra en initialtilstand og fortsetter gjennom en serie overganger til en terminaltilstand er nådd.

Episodiske oppgaver er de som består av en endelig sekvens av tilstander, handlinger og belønninger, der agentens interaksjon med miljøet er delt inn i separate episoder.

Til sammenligning har kontinuerlige oppgaver ikke en tydelig slutt på hver interaksjonssyklus. Agenten samhandler kontinuerlig med miljøet uten å tilbakestille til en starttilstand, og læringsprosessen pågår ofte uten et klart sluttpunkt.

Avkastning

Du vet allerede at agentens hovedmål er å maksimere kumulative belønninger. Selv om belønningsfunksjonen gir øyeblikkelige belønninger, tar den ikke hensyn til fremtidige utfall, noe som kan være problematisk. En agent som kun er trent til å maksimere umiddelbare belønninger kan overse langsiktige fordeler. For å løse dette introduserer vi begrepet avkastning.

Definisjon

Return $G$ er den totale akkumulerte belønningen som en agent mottar fra en gitt tilstand og fremover, som inkluderer alle belønningene den vil motta i fremtiden, ikke bare umiddelbart.

Return er en bedre representasjon av hvor god en bestemt tilstand eller handling er på lang sikt. Målet med forsterkningslæring kan nå defineres som å maksimere return.

Hvis $T$ er det siste tidsskrittet, ser formelen for return slik ut:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Selv om enkel avkastning fungerer som et godt mål i episodiske oppgaver, oppstår det et problem i kontinuerlige oppgaver. Hvis antallet tidssteg er uendelig, kan avkastningen selv bli uendelig. For å håndtere dette brukes en diskonteringsfaktor for å sikre at fremtidige belønninger tillegges mindre vekt, og dermed forhindrer at avkastningen blir uendelig.

Definisjon

Diskonteringsfaktor $\gamma$ er en multiplikativ faktor som brukes til å bestemme nåverdien av fremtidige belønninger. Den varierer mellom 0 og 1, hvor en verdi nærmere 0 får agenten til å prioritere umiddelbare belønninger, mens en verdi nærmere 1 gjør at agenten legger større vekt på fremtidige belønninger.

Return kombinert med en diskonteringsfaktor kalles diskontert retur.

Formelen for diskontert retur ser slik ut:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Studer mer

Selv i episodiske oppgaver gir bruk av en diskonteringsfaktor praktiske fordeler: det motiverer agenten til å nå målet så raskt som mulig, noe som fører til mer effektiv atferd. Av denne grunn brukes diskontering ofte selv i klart episodiske sammenhenger.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 4

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain what the discount factor γ represents?

What are some examples of episodic and continuous tasks in real life?

Why is it important to use discounted return in reinforcement learning?

Sveip for å vise menyen

Oppgavens lengde

RL-oppgaver kategoriseres vanligvis som episodiske eller kontinuerlige, avhengig av hvordan læringsprosessen er strukturert over tid.

Definisjon

Episodiske oppgaver er de som består av en endelig sekvens av tilstander, handlinger og belønninger, der agentens interaksjon med miljøet er delt inn i separate episoder.

Avkastning

Definisjon

Return $G$ er den totale akkumulerte belønningen som en agent mottar fra en gitt tilstand og fremover, som inkluderer alle belønningene den vil motta i fremtiden, ikke bare umiddelbart.

Return er en bedre representasjon av hvor god en bestemt tilstand eller handling er på lang sikt. Målet med forsterkningslæring kan nå defineres som å maksimere return.

Hvis $T$ er det siste tidsskrittet, ser formelen for return slik ut:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Definisjon

Return kombinert med en diskonteringsfaktor kalles diskontert retur.

Formelen for diskontert retur ser slik ut:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Studer mer

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 4