Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Episodes en Opbrengsten
De lengte van een taak
RL-taken worden doorgaans gecategoriseerd als episodisch of continu, afhankelijk van hoe het leerproces in de tijd is gestructureerd.
Episode is een volledige reeks interacties tussen de agent en de omgeving, beginnend vanuit een initiële toestand en voortgaand via een reeks transities totdat een terminale toestand is bereikt.
Episodische taken zijn taken die bestaan uit een eindige reeks toestanden, acties en beloningen, waarbij de interactie van de agent met de omgeving is opgedeeld in afzonderlijke episodes.
Daarentegen hebben continue taken geen duidelijk einde aan elke interactiecyclus. De agent interageert voortdurend met de omgeving zonder terug te keren naar een beginstaat, en het leerproces is doorlopend, vaak zonder een duidelijk eindpunt.
Opbrengst
Je weet al dat het belangrijkste doel van de agent is om de cumulatieve beloningen te maximaliseren. Hoewel de beloningsfunctie directe beloningen geeft, houdt deze geen rekening met toekomstige uitkomsten, wat problematisch kan zijn. Een agent die uitsluitend is getraind om directe beloningen te maximaliseren, kan langetermijnvoordelen over het hoofd zien. Om dit probleem aan te pakken, introduceren we het concept opbrengst.
Return is de totale opgebouwde beloning die een agent ontvangt vanaf een bepaalde toestand, waarbij alle toekomstige beloningen worden meegenomen, niet alleen de directe beloning.
De return is een betere weergave van hoe goed een bepaalde toestand of actie is op de lange termijn. Het doel van reinforcement learning kan nu worden gedefinieerd als het maximaliseren van de return.
Als de laatste tijdstap is, ziet de formule voor de return er als volgt uit:
Korting
Hoewel de eenvoudige opbrengst een goed doelwit is in episodische taken, ontstaat er een probleem bij continue taken. Als het aantal tijdsintervallen oneindig is, kan de opbrengst zelf ook oneindig worden. Om dit te voorkomen, wordt een kortingsfactor gebruikt om ervoor te zorgen dat toekomstige beloningen minder zwaar meewegen, waardoor wordt voorkomen dat de opbrengst oneindig wordt.
Kortingsfactor is een multiplicatieve factor die wordt gebruikt om de huidige waarde van toekomstige beloningen te bepalen. Deze ligt tussen 0 en 1, waarbij een waarde dichter bij 0 ervoor zorgt dat de agent directe beloningen prioriteert, terwijl een waarde dichter bij 1 ervoor zorgt dat de agent toekomstige beloningen zwaarder laat meewegen.
Return gecombineerd met een kortingsfactor wordt een gedisconteerde return genoemd.
De formule voor de gedisconteerde return ziet er als volgt uit:
Zelfs bij episodische taken biedt het gebruik van een kortingsfactor praktische voordelen: het motiveert de agent om zijn doel zo snel mogelijk te bereiken, wat leidt tot efficiënter gedrag. Om deze reden wordt korting vaak toegepast, zelfs in duidelijk episodische situaties.
Bedankt voor je feedback!