Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Episoder og Afkast
Opgavens længde
RL-opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.
Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initial tilstand og fortsætter gennem en række overgange, indtil en terminal tilstand opnås.
Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i adskilte episoder.
I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.
Returnering
Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problematiske. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.
Return er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.
Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som at maksimere return.
Hvis er det sidste tidssteg, ser formlen for return således ud:
Diskontering
Selvom simpel return fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tidssteg er uendeligt, kan return i sig selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes lavere, hvilket forhindrer return i at blive uendelig.
Diskonteringsfaktor er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.
Return kombineret med en diskonteringsfaktor kaldes diskonteret return.
Formlen for diskonteret return ser således ud:
Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte, selv i klart episodiske situationer.
Tak for dine kommentarer!