Leer Episodes en Opbrengsten | Kernprincipes van RL

De lengte van een taak

RL-taken worden doorgaans gecategoriseerd als episodisch of continu, afhankelijk van hoe het leerproces in de tijd is gestructureerd.

Definitie

Episode is een volledige reeks interacties tussen de agent en de omgeving, beginnend vanuit een initiële toestand en voortgaand via een reeks transities totdat een terminale toestand is bereikt.

Episodische taken zijn taken die bestaan uit een eindige reeks van toestanden, acties en beloningen, waarbij de interactie van de agent met de omgeving is opgedeeld in afzonderlijke episodes.

Daarentegen hebben continue taken geen duidelijk einde aan elke interactiecyclus. De agent interageert voortdurend met de omgeving zonder terug te keren naar een beginstaat, en het leerproces is doorlopend, vaak zonder een duidelijk eindpunt.

Opbrengst

Je weet al dat het belangrijkste doel van de agent is om de cumulatieve beloningen te maximaliseren. Hoewel de beloningsfunctie directe beloningen geeft, houdt deze geen rekening met toekomstige uitkomsten, wat problematisch kan zijn. Een agent die uitsluitend is getraind om directe beloningen te maximaliseren, kan langetermijnvoordelen over het hoofd zien. Om dit probleem aan te pakken, introduceren we het concept opbrengst.

Definitie

Return $G$ is de totale opgetelde beloning die een agent ontvangt vanaf een bepaalde toestand, waarbij alle toekomstige beloningen worden meegenomen, niet alleen de directe beloning.

De return is een betere weergave van hoe goed een bepaalde toestand of actie is op de lange termijn. Het doel van reinforcement learning kan nu worden gedefinieerd als het maximaliseren van de return.

Als $T$ de laatste tijdstap is, ziet de formule voor de return er als volgt uit:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Korting

Hoewel eenvoudige opbrengst een goed doelwit is in episodische taken, ontstaat er een probleem bij continue taken. Als het aantal tijdsintervallen oneindig is, kan de opbrengst zelf ook oneindig worden. Om dit te voorkomen wordt een kortingsfactor gebruikt, zodat toekomstige beloningen minder zwaar meewegen en de opbrengst niet oneindig wordt.

Definitie

Kortingsfactor $\gamma$ is een multiplicatieve factor die wordt gebruikt om de huidige waarde van toekomstige beloningen te bepalen. Deze ligt tussen 0 en 1, waarbij een waarde dichter bij 0 ervoor zorgt dat de agent directe beloningen prioriteert, terwijl een waarde dichter bij 1 ervoor zorgt dat de agent toekomstige beloningen zwaarder laat meewegen.

Return gecombineerd met een kortingsfactor wordt een gedisconteerde return genoemd.

De formule voor de gedisconteerde return ziet er als volgt uit:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Meer leren

Zelfs bij episodische taken biedt het gebruik van een kortingsfactor praktische voordelen: het motiveert de agent om het doel zo snel mogelijk te bereiken, wat leidt tot efficiënter gedrag. Om deze reden wordt korting vaak toegepast, zelfs in duidelijk episodische situaties.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 4

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen

De lengte van een taak

RL-taken worden doorgaans gecategoriseerd als episodisch of continu, afhankelijk van hoe het leerproces in de tijd is gestructureerd.

Definitie

Opbrengst

Definitie

Return $G$ is de totale opgetelde beloning die een agent ontvangt vanaf een bepaalde toestand, waarbij alle toekomstige beloningen worden meegenomen, niet alleen de directe beloning.

Als $T$ de laatste tijdstap is, ziet de formule voor de return er als volgt uit:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Korting

Definitie

Return gecombineerd met een kortingsfactor wordt een gedisconteerde return genoemd.

De formule voor de gedisconteerde return ziet er als volgt uit:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Meer leren

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 4