Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Episoder og Avkastning | Kjerneprinsipper i RL
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Episoder og Avkastning

Varigheten av en oppgave

RL-oppgaver kategoriseres vanligvis som episodiske eller kontinuerlige, avhengig av hvordan læringsprosessen er strukturert over tid.

Note
Definisjon

Episode er en fullstendig sekvens av interaksjoner mellom agenten og miljøet, som starter fra en initialtilstand og fortsetter gjennom en serie overganger til en terminaltilstand er nådd.

Episodiske oppgaver er de som består av en endelig sekvens av tilstander, handlinger og belønninger, der agentens interaksjon med miljøet er delt inn i separate episoder.

I motsetning til dette har kontinuerlige oppgaver ikke en tydelig avslutning på hver interaksjonssyklus. Agenten samhandler kontinuerlig med miljøet uten å tilbakestille til en starttilstand, og læringsprosessen pågår, ofte uten et klart sluttpunkt.

Avkastning

Du vet allerede at agentens hovedmål er å maksimere akkumulerte belønninger. Selv om belønningsfunksjonen gir øyeblikkelige belønninger, tar den ikke hensyn til fremtidige utfall, noe som kan være problematisk. En agent som kun er trent til å maksimere umiddelbare belønninger, kan overse langsiktige fordeler. For å løse dette introduserer vi begrepet avkastning.

Note
Definisjon

Return GG er den totale akkumulerte belønningen som en agent mottar fra en gitt tilstand og fremover, som inkluderer alle belønningene den vil motta i fremtiden, ikke bare umiddelbart.

Return er en bedre representasjon av hvor god en bestemt tilstand eller handling er på lang sikt. Målet med forsterkningslæring kan nå defineres som å maksimere return.

Hvis TT er det siste tidsskrittet, ser formelen for return slik ut:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Selv om enkel avkastning fungerer som et godt mål i episodiske oppgaver, oppstår det et problem i kontinuerlige oppgaver. Hvis antallet tidssteg er uendelig, kan avkastningen i seg selv bli uendelig. For å håndtere dette brukes en diskonteringsfaktor for å sikre at fremtidige belønninger tillegges mindre vekt, og dermed forhindrer at avkastningen blir uendelig.

Note
Definisjon

Diskonteringsfaktor γ\gamma er en multiplikativ faktor som brukes til å bestemme nåverdien av fremtidige belønninger. Den varierer mellom 0 og 1, hvor en verdi nærmere 0 får agenten til å prioritere umiddelbare belønninger, mens en verdi nærmere 1 gjør at agenten tillegger fremtidige belønninger større betydning.

Return kombinert med en diskonteringsfaktor kalles diskontert retur.

Formelen for diskontert retur ser slik ut:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studer mer

Selv i episodiske oppgaver gir bruk av en diskonteringsfaktor praktiske fordeler: det motiverer agenten til å nå målet så raskt som mulig, noe som fører til mer effektiv atferd. Av denne grunn brukes diskontering ofte selv i klart episodiske situasjoner.

question mark

Hva representerer diskonteringsfaktoren γ\gamma?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 4

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Episoder og Avkastning

Varigheten av en oppgave

RL-oppgaver kategoriseres vanligvis som episodiske eller kontinuerlige, avhengig av hvordan læringsprosessen er strukturert over tid.

Note
Definisjon

Episode er en fullstendig sekvens av interaksjoner mellom agenten og miljøet, som starter fra en initialtilstand og fortsetter gjennom en serie overganger til en terminaltilstand er nådd.

Episodiske oppgaver er de som består av en endelig sekvens av tilstander, handlinger og belønninger, der agentens interaksjon med miljøet er delt inn i separate episoder.

I motsetning til dette har kontinuerlige oppgaver ikke en tydelig avslutning på hver interaksjonssyklus. Agenten samhandler kontinuerlig med miljøet uten å tilbakestille til en starttilstand, og læringsprosessen pågår, ofte uten et klart sluttpunkt.

Avkastning

Du vet allerede at agentens hovedmål er å maksimere akkumulerte belønninger. Selv om belønningsfunksjonen gir øyeblikkelige belønninger, tar den ikke hensyn til fremtidige utfall, noe som kan være problematisk. En agent som kun er trent til å maksimere umiddelbare belønninger, kan overse langsiktige fordeler. For å løse dette introduserer vi begrepet avkastning.

Note
Definisjon

Return GG er den totale akkumulerte belønningen som en agent mottar fra en gitt tilstand og fremover, som inkluderer alle belønningene den vil motta i fremtiden, ikke bare umiddelbart.

Return er en bedre representasjon av hvor god en bestemt tilstand eller handling er på lang sikt. Målet med forsterkningslæring kan nå defineres som å maksimere return.

Hvis TT er det siste tidsskrittet, ser formelen for return slik ut:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontering

Selv om enkel avkastning fungerer som et godt mål i episodiske oppgaver, oppstår det et problem i kontinuerlige oppgaver. Hvis antallet tidssteg er uendelig, kan avkastningen i seg selv bli uendelig. For å håndtere dette brukes en diskonteringsfaktor for å sikre at fremtidige belønninger tillegges mindre vekt, og dermed forhindrer at avkastningen blir uendelig.

Note
Definisjon

Diskonteringsfaktor γ\gamma er en multiplikativ faktor som brukes til å bestemme nåverdien av fremtidige belønninger. Den varierer mellom 0 og 1, hvor en verdi nærmere 0 får agenten til å prioritere umiddelbare belønninger, mens en verdi nærmere 1 gjør at agenten tillegger fremtidige belønninger større betydning.

Return kombinert med en diskonteringsfaktor kalles diskontert retur.

Formelen for diskontert retur ser slik ut:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Studer mer

Selv i episodiske oppgaver gir bruk av en diskonteringsfaktor praktiske fordeler: det motiverer agenten til å nå målet så raskt som mulig, noe som fører til mer effektiv atferd. Av denne grunn brukes diskontering ofte selv i klart episodiske situasjoner.

question mark

Hva representerer diskonteringsfaktoren γ\gamma?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 4
some-alt