Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Aksjonsverdier | Multi-Armet Bandittproblem
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Aksjonsverdier

Handlingsverdi er et grunnleggende begrep i MAB-problemet. Det spiller en sentral rolle i ulike algoritmer, inkludert epsilon-grådig og øvre konfidensgrense. Hovedformålet med en handlingsverdi er å gi et estimat på den forventede belønningen når en spesifikk handling velges. Det ligner på en tilstands-handlingsverdi, men er uavhengig av tilstand på grunn av den tilstandsløse naturen til MAB-problemet.

Definisjon av handlingsverdi

Formelt representerer handlingsverdien, betegnet som Q(a)Q(a), den forventede belønningen ved å velge handling aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

hvor:

  • RR er mottatt belønning;
  • AA er valgt handling.

Siden den sanne belønningsfordelingen vanligvis er ukjent, må vi estimere Q(a)Q(a) ved hjelp av observerte data.

Estimering av aksjonsverdier

Det finnes flere metoder for å estimere Q(a)Q(a) basert på observerte belønninger. Den vanligste metoden er gjennomsnittlig prøveestimat, som beregner gjennomsnittlig belønning mottatt ved å velge aksjon aa frem til tidspunkt tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

hvor:

  • Qt(a)Q_t(a) er estimert verdi for aksjon aa ved tid tt;
  • Nt(a)N_t(a) er antall ganger aksjon aa har blitt valgt frem til tid tt;
  • RiR_i er belønningen oppnådd i hvert tilfelle når aksjon aa ble valgt.

Når flere prøver samles inn, vil dette estimatet konvergere mot den sanne forventede belønningen Q(a)Q_*(a) forutsatt at belønningsfordelingen forblir stasjonær.

Note
Definisjon

En stasjonær fordeling er en fordeling som ikke endrer seg over tid, uansett hvilke aksjoner som tas eller hvordan miljøet endres.

Inkrementell oppdateringsregel

Selv om formelen ovenfor kan brukes til å estimere aksjonsverdier, krever den at alle tidligere belønninger lagres, og at summen deres beregnes på nytt for hvert tidssteg. Med inkrementelle oppdateringer blir dette unødvendig. Formelen for inkrementelle oppdateringer kan utledes slik:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

hvor for en gitt handling:

  • QkQ_k er et estimat av den kk-te belønningen, som kan uttrykkes som et gjennomsnitt av de første k1k-1 belønningene;
  • RkR_k er den faktiske kk-te belønningen.

Intuisjon

Når du kjenner estimatet av den kk-te belønningen, QkQ_k, og den faktiske kk-te belønningen, RkR_k, kan du måle feilen som forskjellen mellom disse verdiene. Deretter kan neste estimat beregnes ved å justere det forrige estimatet litt i retning av den faktiske belønningen, for å redusere feilen.

Denne intuisjonen leder til en annen formel, som ser slik ut:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

hvor α\alpha er en stegstørrelsesparameter som styrer læringshastigheten. Som i den forrige formelen kan alfa være 1k\frac1k, og det vil gi et gjennomsnittlig estimat. Alternativt brukes ofte en konstant α\alpha, siden det ikke krever ekstra lagringsplass (for å lagre hvor mange ganger en handling er valgt) og tillater tilpasning til ikke-stasjonære miljøer ved å legge større vekt på nyere observasjoner.

Optimistisk initialisering

I begynnelsen av en treningsprosess kan estimatene for handlingsverdier variere betydelig, noe som kan føre til for tidlig utnyttelse. Dette innebærer at agenten kan utnytte sin innledende kunnskap for tidlig, og dermed favorisere suboptimale handlinger basert på begrenset erfaring. For å motvirke dette og oppmuntre til innledende utforskning, er en enkel og effektiv teknikk optimistisk initialisering.

Ved optimistisk initialisering blir handlingsverdiene satt til relativt høye verdier (for eksempel Q0(a)=1Q_0(a) = 1 i stedet for 0). Denne tilnærmingen gir inntrykk av at alle handlinger er lovende i starten. Som et resultat blir agenten motivert til å utforske hver handling flere ganger før den velger det beste alternativet. Denne teknikken er mest effektiv når den brukes sammen med konstant steg-størrelse.

Note
Merk

Den optimale handlingsraten i denne og fremtidige grafer refererer til andelen miljøer hvor den optimale handlingen ble valgt på et gitt tidspunkt.

For eksempel, hvis det er 10 testmiljøer, og den optimale handlingen ble valgt i 6 av dem ved tidstrinn 200, vil den optimale handlingsraten for det tidstrinnet være 0,6. Dette målet er nyttig for å evaluere ytelse fordi det korrelerer med maksimal belønning, uten å være avhengig av de eksakte belønningsverdiene.

question mark

Hva brukes gjennomsnittlig estimat til i estimering av handlingsverdier?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Aksjonsverdier

Handlingsverdi er et grunnleggende begrep i MAB-problemet. Det spiller en sentral rolle i ulike algoritmer, inkludert epsilon-grådig og øvre konfidensgrense. Hovedformålet med en handlingsverdi er å gi et estimat på den forventede belønningen når en spesifikk handling velges. Det ligner på en tilstands-handlingsverdi, men er uavhengig av tilstand på grunn av den tilstandsløse naturen til MAB-problemet.

Definisjon av handlingsverdi

Formelt representerer handlingsverdien, betegnet som Q(a)Q(a), den forventede belønningen ved å velge handling aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

hvor:

  • RR er mottatt belønning;
  • AA er valgt handling.

Siden den sanne belønningsfordelingen vanligvis er ukjent, må vi estimere Q(a)Q(a) ved hjelp av observerte data.

Estimering av aksjonsverdier

Det finnes flere metoder for å estimere Q(a)Q(a) basert på observerte belønninger. Den vanligste metoden er gjennomsnittlig prøveestimat, som beregner gjennomsnittlig belønning mottatt ved å velge aksjon aa frem til tidspunkt tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

hvor:

  • Qt(a)Q_t(a) er estimert verdi for aksjon aa ved tid tt;
  • Nt(a)N_t(a) er antall ganger aksjon aa har blitt valgt frem til tid tt;
  • RiR_i er belønningen oppnådd i hvert tilfelle når aksjon aa ble valgt.

Når flere prøver samles inn, vil dette estimatet konvergere mot den sanne forventede belønningen Q(a)Q_*(a) forutsatt at belønningsfordelingen forblir stasjonær.

Note
Definisjon

En stasjonær fordeling er en fordeling som ikke endrer seg over tid, uansett hvilke aksjoner som tas eller hvordan miljøet endres.

Inkrementell oppdateringsregel

Selv om formelen ovenfor kan brukes til å estimere aksjonsverdier, krever den at alle tidligere belønninger lagres, og at summen deres beregnes på nytt for hvert tidssteg. Med inkrementelle oppdateringer blir dette unødvendig. Formelen for inkrementelle oppdateringer kan utledes slik:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

hvor for en gitt handling:

  • QkQ_k er et estimat av den kk-te belønningen, som kan uttrykkes som et gjennomsnitt av de første k1k-1 belønningene;
  • RkR_k er den faktiske kk-te belønningen.

Intuisjon

Når du kjenner estimatet av den kk-te belønningen, QkQ_k, og den faktiske kk-te belønningen, RkR_k, kan du måle feilen som forskjellen mellom disse verdiene. Deretter kan neste estimat beregnes ved å justere det forrige estimatet litt i retning av den faktiske belønningen, for å redusere feilen.

Denne intuisjonen leder til en annen formel, som ser slik ut:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

hvor α\alpha er en stegstørrelsesparameter som styrer læringshastigheten. Som i den forrige formelen kan alfa være 1k\frac1k, og det vil gi et gjennomsnittlig estimat. Alternativt brukes ofte en konstant α\alpha, siden det ikke krever ekstra lagringsplass (for å lagre hvor mange ganger en handling er valgt) og tillater tilpasning til ikke-stasjonære miljøer ved å legge større vekt på nyere observasjoner.

Optimistisk initialisering

I begynnelsen av en treningsprosess kan estimatene for handlingsverdier variere betydelig, noe som kan føre til for tidlig utnyttelse. Dette innebærer at agenten kan utnytte sin innledende kunnskap for tidlig, og dermed favorisere suboptimale handlinger basert på begrenset erfaring. For å motvirke dette og oppmuntre til innledende utforskning, er en enkel og effektiv teknikk optimistisk initialisering.

Ved optimistisk initialisering blir handlingsverdiene satt til relativt høye verdier (for eksempel Q0(a)=1Q_0(a) = 1 i stedet for 0). Denne tilnærmingen gir inntrykk av at alle handlinger er lovende i starten. Som et resultat blir agenten motivert til å utforske hver handling flere ganger før den velger det beste alternativet. Denne teknikken er mest effektiv når den brukes sammen med konstant steg-størrelse.

Note
Merk

Den optimale handlingsraten i denne og fremtidige grafer refererer til andelen miljøer hvor den optimale handlingen ble valgt på et gitt tidspunkt.

For eksempel, hvis det er 10 testmiljøer, og den optimale handlingen ble valgt i 6 av dem ved tidstrinn 200, vil den optimale handlingsraten for det tidstrinnet være 0,6. Dette målet er nyttig for å evaluere ytelse fordi det korrelerer med maksimal belønning, uten å være avhengig av de eksakte belønningsverdiene.

question mark

Hva brukes gjennomsnittlig estimat til i estimering av handlingsverdier?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2
some-alt