Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Aksjonsverdier | Multi-Armet Bandittproblem
Introduksjon til forsterkningslæring

bookAksjonsverdier

Handlingsverdi er et grunnleggende konsept i MAB-problemet. Det spiller en sentral rolle i ulike algoritmer, inkludert epsilon-greedy og øvre konfidensgrense. Hovedformålet med en handlingsverdi er å gi et estimat på forventet belønning når en spesifikk handling velges. Det ligner på en tilstands-handlingsverdi, men er uavhengig av tilstand på grunn av den tilstandsløse naturen til MAB-problemet.

Definisjon av handlingsverdi

Formelt representerer handlingsverdien, betegnet som Q(a)Q(a), den forventede belønningen ved å velge handling aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

hvor:

  • RR er mottatt belønning;
  • AA er valgt handling.

Siden den sanne belønningsfordelingen vanligvis er ukjent, må vi estimere Q(a)Q(a) ved hjelp av observerte data.

Estimering av aksjonsverdier

Det finnes flere metoder for å estimere Q(a)Q(a) basert på observerte belønninger. Den vanligste metoden er gjennomsnittlig prøveestimat, som beregner gjennomsnittlig belønning mottatt ved å velge aksjon aa frem til tidspunkt tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

hvor:

  • Qt(a)Q_t(a) er estimert verdi for aksjon aa ved tid tt;
  • Nt(a)N_t(a) er antall ganger aksjon aa har blitt valgt frem til tid tt;
  • RiR_i er belønningen oppnådd i hver forekomst når aksjon aa ble valgt.

Når flere prøver samles inn, vil dette estimatet konvergere mot den sanne forventede belønningen Q(a)Q_*(a) forutsatt at belønningsfordelingen forblir stasjonær.

Note
Definisjon

En stasjonær fordeling er en fordeling som ikke endrer seg over tid, uansett hvilke handlinger som tas eller hvordan miljøet endres.

Inkrementell oppdateringsregel

Selv om formelen ovenfor kan brukes til å estimere aksjonsverdier, krever den at alle tidligere belønninger lagres, og at summen deres beregnes på hvert tidspunkt. Med inkrementelle oppdateringer blir dette unødvendig. Formelen for inkrementelle oppdateringer kan utledes slik:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

hvor for en gitt aksjon:

  • QkQ_k er et estimat av den kk-te belønningen, som kan uttrykkes som et gjennomsnitt av de første k1k-1 belønningene;
  • RkR_k er den faktiske kk-te belønningen.

Intuisjon

Ved å kjenne estimatet av den kk-te belønningen, QkQ_k, og den faktiske kk-te belønningen, RkR_k, kan du måle feilen som forskjellen mellom disse verdiene. Deretter kan neste estimat beregnes ved å justere det forrige estimatet litt i retning av den faktiske belønningen, for å redusere feilen.

Denne intuisjonen leder til en annen formel, som ser slik ut:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

hvor α\alpha er en stegstørrelsesparameter som styrer læringshastigheten. Som i den forrige formelen kan alfa være 1k\frac1k, og det vil gi et prøvebasert gjennomsnitt. Alternativt brukes ofte en konstant α\alpha, da dette ikke krever ekstra lagringsplass (for å lagre hvor mange ganger en aksjon er valgt) og tillater tilpasning til ikke-stasjonære miljøer ved å legge større vekt på nyere observasjoner.

Optimistisk initialisering

Ved starten av en treningsprosess kan estimater for handlingsverdier variere betydelig, noe som kan føre til for tidlig utnyttelse. Dette innebærer at agenten kan utnytte sin innledende kunnskap for tidlig, og dermed favorisere suboptimale handlinger basert på begrenset erfaring. For å motvirke dette og fremme innledende utforskning, er en enkel og effektiv teknikk optimistisk initialisering.

Ved optimistisk initialisering blir handlingsverdiene satt til relativt høye verdier (for eksempel Q0(a)=1Q_0(a) = 1 i stedet for 0). Denne tilnærmingen gir inntrykk av at alle handlinger er lovende i starten. Som et resultat blir agenten motivert til å utforske hver handling flere ganger før den velger det beste alternativet. Denne teknikken er mest effektiv når den brukes sammen med konstant steg-størrelse.

Note
Merk

Den optimale handlingsraten i denne og fremtidige grafer refererer til andelen miljøer hvor den optimale handlingen ble valgt på et gitt tidspunkt.

For eksempel, hvis det er 10 testmiljøer, og den optimale handlingen ble valgt i 6 av dem ved tidsskritt 200, vil den optimale handlingsraten for det tidsskrittet være 0,6. Dette målet er nyttig for å evaluere ytelse fordi det korrelerer med maksimal belønning, uten å være avhengig av de eksakte belønningsverdiene.

question mark

Hva brukes gjennomsnittet av utvalget til i estimering av handlingsverdier?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain more about the difference between sample average and incremental update methods?

How does optimistic initialization affect the exploration-exploitation tradeoff?

What are some practical scenarios where constant step-size is preferred over sample average?

Awesome!

Completion rate improved to 2.7

bookAksjonsverdier

Sveip for å vise menyen

Handlingsverdi er et grunnleggende konsept i MAB-problemet. Det spiller en sentral rolle i ulike algoritmer, inkludert epsilon-greedy og øvre konfidensgrense. Hovedformålet med en handlingsverdi er å gi et estimat på forventet belønning når en spesifikk handling velges. Det ligner på en tilstands-handlingsverdi, men er uavhengig av tilstand på grunn av den tilstandsløse naturen til MAB-problemet.

Definisjon av handlingsverdi

Formelt representerer handlingsverdien, betegnet som Q(a)Q(a), den forventede belønningen ved å velge handling aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

hvor:

  • RR er mottatt belønning;
  • AA er valgt handling.

Siden den sanne belønningsfordelingen vanligvis er ukjent, må vi estimere Q(a)Q(a) ved hjelp av observerte data.

Estimering av aksjonsverdier

Det finnes flere metoder for å estimere Q(a)Q(a) basert på observerte belønninger. Den vanligste metoden er gjennomsnittlig prøveestimat, som beregner gjennomsnittlig belønning mottatt ved å velge aksjon aa frem til tidspunkt tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

hvor:

  • Qt(a)Q_t(a) er estimert verdi for aksjon aa ved tid tt;
  • Nt(a)N_t(a) er antall ganger aksjon aa har blitt valgt frem til tid tt;
  • RiR_i er belønningen oppnådd i hver forekomst når aksjon aa ble valgt.

Når flere prøver samles inn, vil dette estimatet konvergere mot den sanne forventede belønningen Q(a)Q_*(a) forutsatt at belønningsfordelingen forblir stasjonær.

Note
Definisjon

En stasjonær fordeling er en fordeling som ikke endrer seg over tid, uansett hvilke handlinger som tas eller hvordan miljøet endres.

Inkrementell oppdateringsregel

Selv om formelen ovenfor kan brukes til å estimere aksjonsverdier, krever den at alle tidligere belønninger lagres, og at summen deres beregnes på hvert tidspunkt. Med inkrementelle oppdateringer blir dette unødvendig. Formelen for inkrementelle oppdateringer kan utledes slik:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

hvor for en gitt aksjon:

  • QkQ_k er et estimat av den kk-te belønningen, som kan uttrykkes som et gjennomsnitt av de første k1k-1 belønningene;
  • RkR_k er den faktiske kk-te belønningen.

Intuisjon

Ved å kjenne estimatet av den kk-te belønningen, QkQ_k, og den faktiske kk-te belønningen, RkR_k, kan du måle feilen som forskjellen mellom disse verdiene. Deretter kan neste estimat beregnes ved å justere det forrige estimatet litt i retning av den faktiske belønningen, for å redusere feilen.

Denne intuisjonen leder til en annen formel, som ser slik ut:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

hvor α\alpha er en stegstørrelsesparameter som styrer læringshastigheten. Som i den forrige formelen kan alfa være 1k\frac1k, og det vil gi et prøvebasert gjennomsnitt. Alternativt brukes ofte en konstant α\alpha, da dette ikke krever ekstra lagringsplass (for å lagre hvor mange ganger en aksjon er valgt) og tillater tilpasning til ikke-stasjonære miljøer ved å legge større vekt på nyere observasjoner.

Optimistisk initialisering

Ved starten av en treningsprosess kan estimater for handlingsverdier variere betydelig, noe som kan føre til for tidlig utnyttelse. Dette innebærer at agenten kan utnytte sin innledende kunnskap for tidlig, og dermed favorisere suboptimale handlinger basert på begrenset erfaring. For å motvirke dette og fremme innledende utforskning, er en enkel og effektiv teknikk optimistisk initialisering.

Ved optimistisk initialisering blir handlingsverdiene satt til relativt høye verdier (for eksempel Q0(a)=1Q_0(a) = 1 i stedet for 0). Denne tilnærmingen gir inntrykk av at alle handlinger er lovende i starten. Som et resultat blir agenten motivert til å utforske hver handling flere ganger før den velger det beste alternativet. Denne teknikken er mest effektiv når den brukes sammen med konstant steg-størrelse.

Note
Merk

Den optimale handlingsraten i denne og fremtidige grafer refererer til andelen miljøer hvor den optimale handlingen ble valgt på et gitt tidspunkt.

For eksempel, hvis det er 10 testmiljøer, og den optimale handlingen ble valgt i 6 av dem ved tidsskritt 200, vil den optimale handlingsraten for det tidsskrittet være 0,6. Dette målet er nyttig for å evaluere ytelse fordi det korrelerer med maksimal belønning, uten å være avhengig av de eksakte belønningsverdiene.

question mark

Hva brukes gjennomsnittet av utvalget til i estimering av handlingsverdier?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2
some-alt