Leer Actiewaarden | Multi-Armed Bandit Probleem

Actiewaarde is een fundamenteel concept in het MAB-probleem. Het speelt een cruciale rol in verschillende algoritmen, waaronder epsilon-greedy en upper confidence bound. Het primaire doel van een actiewaarde is het geven van een schatting van de verwachte beloning wanneer een specifieke actie wordt gekozen. Het is vergelijkbaar met een toestand-actiewaarde, maar is onafhankelijk van een toestand vanwege het toestandsloze karakter van het MAB-probleem.

Definitie van actiewaarde

Formeel stelt de actiewaarde, aangeduid als $Q(a)$ , de verwachte beloning voor bij het kiezen van actie $a$ :

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

waarbij:

$R$ de ontvangen beloning is;
$A$ de geselecteerde actie is.

Aangezien de ware beloningsverdeling doorgaans onbekend is, moeten we $Q(a)$ schatten met behulp van geobserveerde data.

Schatting van Actiewaarden

Er zijn verschillende manieren om $Q(a)$ te schatten op basis van waargenomen beloningen. De meest gebruikelijke methode is de steekproefgemiddelde schatting, die de gemiddelde beloning berekent die is ontvangen door het kiezen van actie $a$ tot tijdstip $t$ :

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

waarbij:

$Q_t(a)$ de geschatte waarde is van actie $a$ op tijdstip $t$ ;
$N_t(a)$ het aantal keren is dat actie $a$ is gekozen tot tijdstip $t$ ;
$R_i$ de beloning is die is verkregen bij elke keer dat actie $a$ werd uitgevoerd.

Naarmate meer steekproeven worden verzameld, convergeert deze schatting naar de werkelijke verwachte beloning $Q_*(a)$ , ervan uitgaande dat de beloningsverdeling stationair blijft.

Definitie

Een stationaire verdeling is een verdeling die niet verandert in de tijd, ongeacht welke acties worden ondernomen of hoe de omgeving verandert.

Incrementele bijwerkingsregel

Hoewel de bovenstaande formule kan worden gebruikt om actie-waarden te schatten, vereist deze het opslaan van alle eerdere beloningen en het telkens opnieuw berekenen van hun som bij elke tijdstap. Met incrementele bijwerkingen is dit niet meer nodig. De formule voor incrementele bijwerkingen kan als volgt worden afgeleid:

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

waarbij voor een bepaalde actie:

$Q_k$ een schatting is van de $k$ -de beloning, die kan worden uitgedrukt als een gemiddelde van de eerste $k-1$ beloningen;
$R_k$ de daadwerkelijke $k$ -de beloning is.

Intuïtie

Door de schatting van de $k$ -de beloning, $Q_k$ , en de daadwerkelijke $k$ -de beloning, $R_k$ , te kennen, kan de fout worden gemeten als het verschil tussen deze waarden. Vervolgens kan de volgende schatting worden berekend door de vorige schatting enigszins aan te passen in de richting van de daadwerkelijke beloning, om de fout te verkleinen.

Deze intuïtie leidt tot een andere formule, die er als volgt uitziet:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

waarbij $\alpha$ een stapgrootteparameter is die de leersnelheid bepaalt. Net als in de vorige formule kan alpha $\frac1k$ zijn, wat resulteert in een steekproefgemiddelde schatting. Alternatief wordt vaak een constante $\alpha$ gebruikt, omdat dit geen extra geheugen vereist (om bij te houden hoe vaak een actie is uitgevoerd) en aanpassing aan niet-stationaire omgevingen mogelijk maakt door meer gewicht te geven aan recente observaties.

Optimistische initialisatie

Aan het begin van een trainingsproces kunnen schattingen van actie-waarden aanzienlijk variëren, wat kan leiden tot vroegtijdige exploitatie. Dit betekent dat de agent zijn initiële kennis te vroeg benut, waardoor suboptimale acties worden verkozen op basis van beperkte ervaring. Om dit probleem te verminderen en initiële exploratie te stimuleren, is optimistische initialisatie een eenvoudige en effectieve techniek.

Bij optimistische initialisatie worden actie-waarden op relatief hoge waarden geïnitialiseerd (bijvoorbeeld $Q_0(a) = 1$ in plaats van 0). Deze aanpak wekt de indruk dat alle acties aanvankelijk veelbelovend zijn. Hierdoor wordt de agent gestimuleerd om elke actie meerdere keren te verkennen voordat de beste keuze wordt gemaakt. Deze techniek is het meest efficiënt wanneer deze wordt gecombineerd met een constante stapgrootte.

Opmerking

Het optimale actieratio in deze en toekomstige grafieken verwijst naar het aandeel omgevingen waarin de optimale actie werd gekozen op een bepaald tijdstip.

Bijvoorbeeld, als er 10 testomgevingen zijn en de optimale actie werd geselecteerd in 6 daarvan op tijdstip 200, dan is de optimale actieratio voor dat tijdstip 0,6. Deze maatstaf is nuttig voor het evalueren van prestaties omdat deze correleert met het maximaliseren van de beloning, zonder afhankelijk te zijn van de exacte beloningswaarden.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain more about the difference between sample average and incremental update methods?

How does optimistic initialization affect the exploration-exploitation tradeoff?

What are some practical scenarios where constant step-size is preferred over sample average?

Awesome!

Completion rate improved to 2.7

Veeg om het menu te tonen

Definitie van actiewaarde

Formeel stelt de actiewaarde, aangeduid als $Q(a)$ , de verwachte beloning voor bij het kiezen van actie $a$ :

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

waarbij:

$R$ de ontvangen beloning is;
$A$ de geselecteerde actie is.

Aangezien de ware beloningsverdeling doorgaans onbekend is, moeten we $Q(a)$ schatten met behulp van geobserveerde data.

Schatting van Actiewaarden

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

waarbij:

$Q_t(a)$ de geschatte waarde is van actie $a$ op tijdstip $t$ ;
$N_t(a)$ het aantal keren is dat actie $a$ is gekozen tot tijdstip $t$ ;
$R_i$ de beloning is die is verkregen bij elke keer dat actie $a$ werd uitgevoerd.

Naarmate meer steekproeven worden verzameld, convergeert deze schatting naar de werkelijke verwachte beloning $Q_*(a)$ , ervan uitgaande dat de beloningsverdeling stationair blijft.

Definitie

Een stationaire verdeling is een verdeling die niet verandert in de tijd, ongeacht welke acties worden ondernomen of hoe de omgeving verandert.

Incrementele bijwerkingsregel

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

waarbij voor een bepaalde actie:

$Q_k$ een schatting is van de $k$ -de beloning, die kan worden uitgedrukt als een gemiddelde van de eerste $k-1$ beloningen;
$R_k$ de daadwerkelijke $k$ -de beloning is.

Intuïtie

Deze intuïtie leidt tot een andere formule, die er als volgt uitziet:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

Optimistische initialisatie

Opmerking

Het optimale actieratio in deze en toekomstige grafieken verwijst naar het aandeel omgevingen waarin de optimale actie werd gekozen op een bepaald tijdstip.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2