Episoder og Afkast
Opgavens længde
RL opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.
Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initial tilstand og fortsætter gennem en række overgange, indtil en terminal tilstand er nået.
Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i adskilte episoder.
I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.
Returnering
Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problemisk. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.
Return G er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.
Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som maksimering af return.
Hvis T er det sidste tidssteg, ser formlen for en return sådan ud:
Gt=Rt+1+Rt+2+Rt+3+...+RTDiskontering
Mens simpel returnering fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tids-trin er uendeligt, kan returneringen selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes mindre, hvilket forhindrer returneringen i at blive uendelig.
Diskonteringsfaktor γ er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.
Return kombineret med en diskonteringsfaktor kaldes diskonteret return.
Formlen for diskonteret return ser således ud:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte selv i klart episodiske sammenhænge.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain what the discount factor γ represents?
What are some examples of episodic and continuous tasks in real life?
Why is it important to use discounted return in reinforcement learning?
Awesome!
Completion rate improved to 2.7
Episoder og Afkast
Stryg for at vise menuen
Opgavens længde
RL opgaver kategoriseres typisk som episodiske eller kontinuerlige, afhængigt af hvordan læringsprocessen er struktureret over tid.
Episode er en fuldstændig sekvens af interaktioner mellem agenten og miljøet, der starter fra en initial tilstand og fortsætter gennem en række overgange, indtil en terminal tilstand er nået.
Episodiske opgaver er dem, der består af en endelig sekvens af tilstande, handlinger og belønninger, hvor agentens interaktion med miljøet er opdelt i adskilte episoder.
I modsætning hertil har kontinuerlige opgaver ikke en klar afslutning på hver interaktionscyklus. Agenten interagerer løbende med miljøet uden at nulstille til en initial tilstand, og læringsprocessen er vedvarende, ofte uden et tydeligt slutpunkt.
Returnering
Du ved allerede, at agentens primære mål er at maksimere kumulative belønninger. Selvom belønningsfunktionen giver øjeblikkelige belønninger, tager den ikke højde for fremtidige udfald, hvilket kan være problemisk. En agent, der kun er trænet til at maksimere øjeblikkelige belønninger, kan overse langsigtede fordele. For at løse dette problem introduceres begrebet returnering.
Return G er den samlede akkumulerede belønning, som en agent modtager fra en given tilstand og fremad, hvilket inkluderer alle de belønninger, den vil modtage i fremtiden, ikke kun de umiddelbare.
Return er en bedre repræsentation af, hvor god en bestemt tilstand eller handling er på lang sigt. Målet med reinforcement learning kan nu defineres som maksimering af return.
Hvis T er det sidste tidssteg, ser formlen for en return sådan ud:
Gt=Rt+1+Rt+2+Rt+3+...+RTDiskontering
Mens simpel returnering fungerer som et godt mål i episodiske opgaver, opstår der et problem i kontinuerlige opgaver. Hvis antallet af tids-trin er uendeligt, kan returneringen selv blive uendelig. For at håndtere dette anvendes en diskonteringsfaktor for at sikre, at fremtidige belønninger vægtes mindre, hvilket forhindrer returneringen i at blive uendelig.
Diskonteringsfaktor γ er en multiplikativ faktor, der bruges til at bestemme nutidsværdien af fremtidige belønninger. Den ligger mellem 0 og 1, hvor en værdi tættere på 0 får agenten til at prioritere øjeblikkelige belønninger, mens en værdi tættere på 1 får agenten til at tillægge fremtidige belønninger større betydning.
Return kombineret med en diskonteringsfaktor kaldes diskonteret return.
Formlen for diskonteret return ser således ud:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Selv i episodiske opgaver giver brugen af en diskonteringsfaktor praktiske fordele: det motiverer agenten til at nå sit mål så hurtigt som muligt, hvilket fører til mere effektiv adfærd. Af denne grund anvendes diskontering ofte selv i klart episodiske sammenhænge.
Tak for dine kommentarer!