Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Episodes en Opbrengsten | Kernprincipes van RL
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Episodes en Opbrengsten

De lengte van een taak

RL-taken worden doorgaans gecategoriseerd als episodisch of continu, afhankelijk van hoe het leerproces in de tijd is gestructureerd.

Note
Definitie

Episode is een volledige reeks interacties tussen de agent en de omgeving, beginnend vanuit een initiële toestand en voortgaand via een reeks transities totdat een terminale toestand is bereikt.

Episodische taken zijn taken die bestaan uit een eindige reeks toestanden, acties en beloningen, waarbij de interactie van de agent met de omgeving is opgedeeld in afzonderlijke episodes.

Daarentegen hebben continue taken geen duidelijk einde aan elke interactiecyclus. De agent interageert voortdurend met de omgeving zonder terug te keren naar een beginstaat, en het leerproces is doorlopend, vaak zonder een duidelijk eindpunt.

Opbrengst

Je weet al dat het belangrijkste doel van de agent is om de cumulatieve beloningen te maximaliseren. Hoewel de beloningsfunctie directe beloningen geeft, houdt deze geen rekening met toekomstige uitkomsten, wat problematisch kan zijn. Een agent die uitsluitend is getraind om directe beloningen te maximaliseren, kan langetermijnvoordelen over het hoofd zien. Om dit probleem aan te pakken, introduceren we het concept opbrengst.

Note
Definitie

Return GG is de totale opgebouwde beloning die een agent ontvangt vanaf een bepaalde toestand, waarbij alle toekomstige beloningen worden meegenomen, niet alleen de directe beloning.

De return is een betere weergave van hoe goed een bepaalde toestand of actie is op de lange termijn. Het doel van reinforcement learning kan nu worden gedefinieerd als het maximaliseren van de return.

Als TT de laatste tijdstap is, ziet de formule voor de return er als volgt uit:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Korting

Hoewel de eenvoudige opbrengst een goed doelwit is in episodische taken, ontstaat er een probleem bij continue taken. Als het aantal tijdsintervallen oneindig is, kan de opbrengst zelf ook oneindig worden. Om dit te voorkomen, wordt een kortingsfactor gebruikt om ervoor te zorgen dat toekomstige beloningen minder zwaar meewegen, waardoor wordt voorkomen dat de opbrengst oneindig wordt.

Note
Definitie

Kortingsfactor γ\gamma is een multiplicatieve factor die wordt gebruikt om de huidige waarde van toekomstige beloningen te bepalen. Deze ligt tussen 0 en 1, waarbij een waarde dichter bij 0 ervoor zorgt dat de agent directe beloningen prioriteert, terwijl een waarde dichter bij 1 ervoor zorgt dat de agent toekomstige beloningen zwaarder laat meewegen.

Return gecombineerd met een kortingsfactor wordt een gedisconteerde return genoemd.

De formule voor de gedisconteerde return ziet er als volgt uit:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Meer leren

Zelfs bij episodische taken biedt het gebruik van een kortingsfactor praktische voordelen: het motiveert de agent om zijn doel zo snel mogelijk te bereiken, wat leidt tot efficiënter gedrag. Om deze reden wordt korting vaak toegepast, zelfs in duidelijk episodische situaties.

question mark

Wat stelt de discontovoet γ\gamma voor?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Episodes en Opbrengsten

De lengte van een taak

RL-taken worden doorgaans gecategoriseerd als episodisch of continu, afhankelijk van hoe het leerproces in de tijd is gestructureerd.

Note
Definitie

Episode is een volledige reeks interacties tussen de agent en de omgeving, beginnend vanuit een initiële toestand en voortgaand via een reeks transities totdat een terminale toestand is bereikt.

Episodische taken zijn taken die bestaan uit een eindige reeks toestanden, acties en beloningen, waarbij de interactie van de agent met de omgeving is opgedeeld in afzonderlijke episodes.

Daarentegen hebben continue taken geen duidelijk einde aan elke interactiecyclus. De agent interageert voortdurend met de omgeving zonder terug te keren naar een beginstaat, en het leerproces is doorlopend, vaak zonder een duidelijk eindpunt.

Opbrengst

Je weet al dat het belangrijkste doel van de agent is om de cumulatieve beloningen te maximaliseren. Hoewel de beloningsfunctie directe beloningen geeft, houdt deze geen rekening met toekomstige uitkomsten, wat problematisch kan zijn. Een agent die uitsluitend is getraind om directe beloningen te maximaliseren, kan langetermijnvoordelen over het hoofd zien. Om dit probleem aan te pakken, introduceren we het concept opbrengst.

Note
Definitie

Return GG is de totale opgebouwde beloning die een agent ontvangt vanaf een bepaalde toestand, waarbij alle toekomstige beloningen worden meegenomen, niet alleen de directe beloning.

De return is een betere weergave van hoe goed een bepaalde toestand of actie is op de lange termijn. Het doel van reinforcement learning kan nu worden gedefinieerd als het maximaliseren van de return.

Als TT de laatste tijdstap is, ziet de formule voor de return er als volgt uit:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Korting

Hoewel de eenvoudige opbrengst een goed doelwit is in episodische taken, ontstaat er een probleem bij continue taken. Als het aantal tijdsintervallen oneindig is, kan de opbrengst zelf ook oneindig worden. Om dit te voorkomen, wordt een kortingsfactor gebruikt om ervoor te zorgen dat toekomstige beloningen minder zwaar meewegen, waardoor wordt voorkomen dat de opbrengst oneindig wordt.

Note
Definitie

Kortingsfactor γ\gamma is een multiplicatieve factor die wordt gebruikt om de huidige waarde van toekomstige beloningen te bepalen. Deze ligt tussen 0 en 1, waarbij een waarde dichter bij 0 ervoor zorgt dat de agent directe beloningen prioriteert, terwijl een waarde dichter bij 1 ervoor zorgt dat de agent toekomstige beloningen zwaarder laat meewegen.

Return gecombineerd met een kortingsfactor wordt een gedisconteerde return genoemd.

De formule voor de gedisconteerde return ziet er als volgt uit:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Meer leren

Zelfs bij episodische taken biedt het gebruik van een kortingsfactor praktische voordelen: het motiveert de agent om zijn doel zo snel mogelijk te bereiken, wat leidt tot efficiënter gedrag. Om deze reden wordt korting vaak toegepast, zelfs in duidelijk episodische situaties.

question mark

Wat stelt de discontovoet γ\gamma voor?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 4
some-alt