Lära Aktionsvärden | Multi-Armed Bandit-Problemet

Åtgärdsvärde är ett grundläggande begrepp i MAB-problemet. Det spelar en avgörande roll i olika algoritmer, inklusive epsilon-girig och övre konfidensgräns. Det primära syftet med ett åtgärdsvärde är att ge en uppskattning av den förväntade belöningen när en specifik åtgärd väljs. Det liknar ett tillstånds-åtgärdsvärde, men är oberoende av tillstånd på grund av MAB-problemets tillståndslösa natur.

Definition av åtgärdsvärde

Formellt representerar åtgärdsvärdet, betecknat som $Q(a)$ , den förväntade belöningen av att välja åtgärd $a$ :

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

där:

$R$ är den mottagna belöningen;
$A$ är den valda åtgärden.

Eftersom den sanna belöningsfördelningen vanligtvis är okänd, måste vi uppskatta $Q(a)$ med hjälp av observerad data.

Uppskattning av åtgärdsvärden

Det finns flera sätt att uppskatta $Q(a)$ baserat på observerade belöningar. Den vanligaste metoden är stickprovsmedelvärdesuppskattningen, som beräknar det genomsnittliga värdet av belöningen som erhållits från att välja åtgärd $a$ fram till tidpunkt $t$ :

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

där:

$Q_t(a)$ är det uppskattade värdet för åtgärd $a$ vid tidpunkt $t$ ;
$N_t(a)$ är antalet gånger åtgärd $a$ har valts fram till tidpunkt $t$ ;
$R_i$ är belöningen som erhållits vid varje tillfälle då åtgärd $a$ valdes.

När fler stickprov samlas in, konvergerar denna uppskattning mot den sanna förväntade belöningen $Q_*(a)$ under antagandet att belöningsfördelningen förblir stationär.

Definition

En stationär fördelning är en fördelning som inte förändras över tid, oavsett vilka åtgärder som vidtas eller hur miljön förändras.

Inkrementell uppdateringsregel

Även om formeln ovan kan användas för att uppskatta åtgärdsvärden, kräver den att alla tidigare belöningar lagras och att deras summa beräknas om vid varje tidssteg. Med inkrementella uppdateringar blir detta onödigt. Formeln för inkrementella uppdateringar kan härledas enligt följande:

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

Där för en viss åtgärd:

$Q_k$ är en uppskattning av den $k$ :te belöningen, som kan uttryckas som ett medelvärde av de första $k-1$ belöningarna;
$R_k$ är den faktiska $k$ :te belöningen.

Intuition

Genom att känna till uppskattningen av den $k$ :te belöningen, $Q_k$ , och den faktiska $k$ :te belöningen, $R_k$ , kan felet mätas som skillnaden mellan dessa värden. Därefter kan nästa uppskattning beräknas genom att justera den tidigare uppskattningen något i riktning mot den faktiska belöningen, för att minska felet.

Denna intuition leder till en annan formel, som ser ut så här:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

Där $\alpha$ är en steglängdsparameter som styr inlärningshastigheten. Precis som i den tidigare formeln kan alfa vara $\frac1k$ , vilket resulterar i en stickprovsbaserad medelvärdesuppskattning. Alternativt används ofta en konstant $\alpha$ , eftersom det inte kräver något ytterligare utrymme (för att lagra hur många gånger en åtgärd har utförts) och möjliggör anpassning till icke-stationära miljöer genom att lägga större vikt vid senaste observationer.

Optimistisk initialisering

I början av en träningsprocess kan skattningar av åtgärdsvärden variera avsevärt, vilket kan leda till för tidig exploatering. Detta innebär att agenten kan utnyttja sin initiala kunskap för tidigt och därmed gynna suboptimala åtgärder baserat på begränsad erfarenhet. För att motverka detta och uppmuntra till initial utforskning är en enkel och effektiv teknik optimistisk initialisering.

Vid optimistisk initialisering initieras åtgärdsvärden till relativt höga värden (t.ex. $Q_0(a) = 1$ istället för 0). Detta skapar intrycket att alla åtgärder är initialt lovande. Som ett resultat uppmuntras agenten att utforska varje åtgärd flera gånger innan den väljer det bästa alternativet. Denna teknik är mest effektiv när den används tillsammans med konstant steglängd.

Notering

Optimal åtgärdsfrekvens i denna och kommande grafer avser andelen miljöer där den optimala åtgärden valdes vid en given tidpunkt.

Till exempel, om det finns 10 testmiljöer och den optimala åtgärden valdes i 6 av dem vid tidpunkt 200, skulle optimal åtgärdsfrekvens för den tidpunkten vara 0,6. Denna mätning är användbar för att utvärdera prestanda eftersom den korrelerar med att maximera belöningen, utan att vara beroende av de exakta belöningsvärdena.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain more about the difference between sample average and incremental update methods?

How does optimistic initialization affect the exploration-exploitation tradeoff?

What are some practical scenarios where constant step-size is preferred over sample average?

Svep för att visa menyn

Definition av åtgärdsvärde

Formellt representerar åtgärdsvärdet, betecknat som $Q(a)$ , den förväntade belöningen av att välja åtgärd $a$ :

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

där:

$R$ är den mottagna belöningen;
$A$ är den valda åtgärden.

Eftersom den sanna belöningsfördelningen vanligtvis är okänd, måste vi uppskatta $Q(a)$ med hjälp av observerad data.

Uppskattning av åtgärdsvärden

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

där:

$Q_t(a)$ är det uppskattade värdet för åtgärd $a$ vid tidpunkt $t$ ;
$N_t(a)$ är antalet gånger åtgärd $a$ har valts fram till tidpunkt $t$ ;
$R_i$ är belöningen som erhållits vid varje tillfälle då åtgärd $a$ valdes.

När fler stickprov samlas in, konvergerar denna uppskattning mot den sanna förväntade belöningen $Q_*(a)$ under antagandet att belöningsfördelningen förblir stationär.

Definition

En stationär fördelning är en fördelning som inte förändras över tid, oavsett vilka åtgärder som vidtas eller hur miljön förändras.

Inkrementell uppdateringsregel

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

Där för en viss åtgärd:

$Q_k$ är en uppskattning av den $k$ :te belöningen, som kan uttryckas som ett medelvärde av de första $k-1$ belöningarna;
$R_k$ är den faktiska $k$ :te belöningen.

Intuition

Denna intuition leder till en annan formel, som ser ut så här:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

Optimistisk initialisering

Notering

Optimal åtgärdsfrekvens i denna och kommande grafer avser andelen miljöer där den optimala åtgärden valdes vid en given tidpunkt.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2