Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Actiewaarden | Multi-Armed Bandit Probleem
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Actiewaarden

Actiewaarde is een fundamenteel concept in het MAB-probleem. Het speelt een cruciale rol in verschillende algoritmen, waaronder epsilon-greedy en upper confidence bound. Het primaire doel van een actiewaarde is het geven van een schatting van de verwachte beloning wanneer een specifieke actie wordt gekozen. Het is vergelijkbaar met een toestand-actiewaarde, maar is onafhankelijk van een toestand vanwege het toestandloze karakter van het MAB-probleem.

Definitie van actiewaarde

Formeel stelt de actiewaarde, aangeduid als Q(a)Q(a), de verwachte beloning voor van het kiezen van actie aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

waarbij:

  • RR de ontvangen beloning is;
  • AA de geselecteerde actie is.

Aangezien de ware beloningsverdeling doorgaans onbekend is, moeten we Q(a)Q(a) schatten met behulp van geobserveerde data.

Waardeschatting van Acties

Er zijn verschillende manieren om Q(a)Q(a) te schatten op basis van waargenomen beloningen. De meest gebruikelijke methode is de steekproefgemiddelde schatting, die de gemiddelde beloning berekent die is ontvangen door het kiezen van actie aa tot tijdstip tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

waarbij:

  • Qt(a)Q_t(a) de geschatte waarde is van actie aa op tijdstip tt;
  • Nt(a)N_t(a) het aantal keren is dat actie aa is gekozen tot tijdstip tt;
  • RiR_i de beloning is verkregen bij elke keer dat actie aa werd uitgevoerd.

Naarmate meer steekproeven worden verzameld, convergeert deze schatting naar de werkelijke verwachte beloning Q(a)Q_*(a), ervan uitgaande dat de beloningsverdeling stationair blijft.

Note
Definitie

Een stationaire verdeling is een verdeling die niet verandert in de tijd, ongeacht welke acties worden ondernomen of hoe de omgeving verandert.

Incrementele bijwerkingsregel

Hoewel de bovenstaande formule gebruikt kan worden om actie-waarden te schatten, vereist deze het opslaan van alle eerdere beloningen en het telkens opnieuw berekenen van hun som bij elke tijdstap. Met incrementele bijwerkingen is dit niet meer nodig. De formule voor incrementele bijwerkingen kan als volgt worden afgeleid:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

waarbij voor een bepaalde actie:

  • QkQ_k een schatting is van de kk-de beloning, die kan worden uitgedrukt als een gemiddelde van de eerste k1k-1 beloningen;
  • RkR_k de werkelijke kk-de beloning is.

Intuïtie

Door de schatting van de kk-de beloning, QkQ_k, en de werkelijke kk-de beloning, RkR_k, te kennen, kan de fout worden gemeten als het verschil tussen deze waarden. Vervolgens kan de volgende schatting worden berekend door de vorige schatting enigszins aan te passen in de richting van de werkelijke beloning, om de fout te verkleinen.

Deze intuïtie leidt tot een andere formule, die er als volgt uitziet:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

waarbij α\alpha een stapgrootteparameter is die de leersnelheid bepaalt. Net als in de vorige formule kan alpha 1k\frac1k zijn, wat resulteert in een steekproefgemiddelde schatting. Alternatief wordt vaak een constante α\alpha gebruikt, omdat dit geen extra ruimte vereist (om op te slaan hoe vaak een actie is uitgevoerd) en aanpassing aan niet-stationaire omgevingen mogelijk maakt door meer gewicht te geven aan recente observaties.

Optimistische initialisatie

Aan het begin van een trainingsproces kunnen schattingen van actie-waarden aanzienlijk variëren, wat kan leiden tot voortijdige exploitatie. Dit betekent dat de agent zijn initiële kennis te vroeg benut, waardoor suboptimale acties worden verkozen op basis van beperkte ervaring. Om dit probleem te verminderen en initiële exploratie te stimuleren, is optimistische initialisatie een eenvoudige en effectieve techniek.

Bij optimistische initialisatie worden actie-waarden op relatief hoge waarden geïnitialiseerd (bijvoorbeeld Q0(a)=1Q_0(a) = 1 in plaats van 0). Deze aanpak wekt de indruk dat alle acties aanvankelijk veelbelovend zijn. Hierdoor wordt de agent gestimuleerd om elke actie meerdere keren te verkennen voordat de beste keuze wordt gemaakt. Deze techniek is het meest efficiënt in combinatie met een constante stapgrootte.

Note
Opmerking

Het optimale actieratio in deze en toekomstige grafieken verwijst naar het aandeel omgevingen waarin de optimale actie werd gekozen op een bepaald tijdstip.

Als er bijvoorbeeld 10 testomgevingen zijn en de optimale actie werd geselecteerd in 6 daarvan op tijdstip 200, dan is het optimale actieratio voor dat tijdstip 0,6. Deze maatstaf is nuttig voor het evalueren van prestaties omdat het correleert met het maximaliseren van de beloning, zonder afhankelijk te zijn van de exacte beloningswaarden.

question mark

Waarvoor wordt de steekproefgemiddelde schatting gebruikt bij het schatten van actie-waarden?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Actiewaarden

Actiewaarde is een fundamenteel concept in het MAB-probleem. Het speelt een cruciale rol in verschillende algoritmen, waaronder epsilon-greedy en upper confidence bound. Het primaire doel van een actiewaarde is het geven van een schatting van de verwachte beloning wanneer een specifieke actie wordt gekozen. Het is vergelijkbaar met een toestand-actiewaarde, maar is onafhankelijk van een toestand vanwege het toestandloze karakter van het MAB-probleem.

Definitie van actiewaarde

Formeel stelt de actiewaarde, aangeduid als Q(a)Q(a), de verwachte beloning voor van het kiezen van actie aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

waarbij:

  • RR de ontvangen beloning is;
  • AA de geselecteerde actie is.

Aangezien de ware beloningsverdeling doorgaans onbekend is, moeten we Q(a)Q(a) schatten met behulp van geobserveerde data.

Waardeschatting van Acties

Er zijn verschillende manieren om Q(a)Q(a) te schatten op basis van waargenomen beloningen. De meest gebruikelijke methode is de steekproefgemiddelde schatting, die de gemiddelde beloning berekent die is ontvangen door het kiezen van actie aa tot tijdstip tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

waarbij:

  • Qt(a)Q_t(a) de geschatte waarde is van actie aa op tijdstip tt;
  • Nt(a)N_t(a) het aantal keren is dat actie aa is gekozen tot tijdstip tt;
  • RiR_i de beloning is verkregen bij elke keer dat actie aa werd uitgevoerd.

Naarmate meer steekproeven worden verzameld, convergeert deze schatting naar de werkelijke verwachte beloning Q(a)Q_*(a), ervan uitgaande dat de beloningsverdeling stationair blijft.

Note
Definitie

Een stationaire verdeling is een verdeling die niet verandert in de tijd, ongeacht welke acties worden ondernomen of hoe de omgeving verandert.

Incrementele bijwerkingsregel

Hoewel de bovenstaande formule gebruikt kan worden om actie-waarden te schatten, vereist deze het opslaan van alle eerdere beloningen en het telkens opnieuw berekenen van hun som bij elke tijdstap. Met incrementele bijwerkingen is dit niet meer nodig. De formule voor incrementele bijwerkingen kan als volgt worden afgeleid:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

waarbij voor een bepaalde actie:

  • QkQ_k een schatting is van de kk-de beloning, die kan worden uitgedrukt als een gemiddelde van de eerste k1k-1 beloningen;
  • RkR_k de werkelijke kk-de beloning is.

Intuïtie

Door de schatting van de kk-de beloning, QkQ_k, en de werkelijke kk-de beloning, RkR_k, te kennen, kan de fout worden gemeten als het verschil tussen deze waarden. Vervolgens kan de volgende schatting worden berekend door de vorige schatting enigszins aan te passen in de richting van de werkelijke beloning, om de fout te verkleinen.

Deze intuïtie leidt tot een andere formule, die er als volgt uitziet:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

waarbij α\alpha een stapgrootteparameter is die de leersnelheid bepaalt. Net als in de vorige formule kan alpha 1k\frac1k zijn, wat resulteert in een steekproefgemiddelde schatting. Alternatief wordt vaak een constante α\alpha gebruikt, omdat dit geen extra ruimte vereist (om op te slaan hoe vaak een actie is uitgevoerd) en aanpassing aan niet-stationaire omgevingen mogelijk maakt door meer gewicht te geven aan recente observaties.

Optimistische initialisatie

Aan het begin van een trainingsproces kunnen schattingen van actie-waarden aanzienlijk variëren, wat kan leiden tot voortijdige exploitatie. Dit betekent dat de agent zijn initiële kennis te vroeg benut, waardoor suboptimale acties worden verkozen op basis van beperkte ervaring. Om dit probleem te verminderen en initiële exploratie te stimuleren, is optimistische initialisatie een eenvoudige en effectieve techniek.

Bij optimistische initialisatie worden actie-waarden op relatief hoge waarden geïnitialiseerd (bijvoorbeeld Q0(a)=1Q_0(a) = 1 in plaats van 0). Deze aanpak wekt de indruk dat alle acties aanvankelijk veelbelovend zijn. Hierdoor wordt de agent gestimuleerd om elke actie meerdere keren te verkennen voordat de beste keuze wordt gemaakt. Deze techniek is het meest efficiënt in combinatie met een constante stapgrootte.

Note
Opmerking

Het optimale actieratio in deze en toekomstige grafieken verwijst naar het aandeel omgevingen waarin de optimale actie werd gekozen op een bepaald tijdstip.

Als er bijvoorbeeld 10 testomgevingen zijn en de optimale actie werd geselecteerd in 6 daarvan op tijdstip 200, dan is het optimale actieratio voor dat tijdstip 0,6. Deze maatstaf is nuttig voor het evalueren van prestaties omdat het correleert met het maximaliseren van de beloning, zonder afhankelijk te zijn van de exacte beloningswaarden.

question mark

Waarvoor wordt de steekproefgemiddelde schatting gebruikt bij het schatten van actie-waarden?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2
some-alt