Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Aksjonsverdier
Handlingsverdi er et grunnleggende begrep i MAB-problemet. Det spiller en sentral rolle i ulike algoritmer, inkludert epsilon-grådig og øvre konfidensgrense. Hovedformålet med en handlingsverdi er å gi et estimat på den forventede belønningen når en spesifikk handling velges. Det ligner på en tilstands-handlingsverdi, men er uavhengig av tilstand på grunn av den tilstandsløse naturen til MAB-problemet.
Definisjon av handlingsverdi
Formelt representerer handlingsverdien, betegnet som , den forventede belønningen ved å velge handling :
hvor:
- er mottatt belønning;
- er valgt handling.
Siden den sanne belønningsfordelingen vanligvis er ukjent, må vi estimere ved hjelp av observerte data.
Estimering av aksjonsverdier
Det finnes flere metoder for å estimere basert på observerte belønninger. Den vanligste metoden er gjennomsnittlig prøveestimat, som beregner gjennomsnittlig belønning mottatt ved å velge aksjon frem til tidspunkt :
hvor:
- er estimert verdi for aksjon ved tid ;
- er antall ganger aksjon har blitt valgt frem til tid ;
- er belønningen oppnådd i hvert tilfelle når aksjon ble valgt.
Når flere prøver samles inn, vil dette estimatet konvergere mot den sanne forventede belønningen forutsatt at belønningsfordelingen forblir stasjonær.
En stasjonær fordeling er en fordeling som ikke endrer seg over tid, uansett hvilke aksjoner som tas eller hvordan miljøet endres.
Inkrementell oppdateringsregel
Selv om formelen ovenfor kan brukes til å estimere aksjonsverdier, krever den at alle tidligere belønninger lagres, og at summen deres beregnes på nytt for hvert tidssteg. Med inkrementelle oppdateringer blir dette unødvendig. Formelen for inkrementelle oppdateringer kan utledes slik:
hvor for en gitt handling:
- er et estimat av den -te belønningen, som kan uttrykkes som et gjennomsnitt av de første belønningene;
- er den faktiske -te belønningen.
Intuisjon
Når du kjenner estimatet av den -te belønningen, , og den faktiske -te belønningen, , kan du måle feilen som forskjellen mellom disse verdiene. Deretter kan neste estimat beregnes ved å justere det forrige estimatet litt i retning av den faktiske belønningen, for å redusere feilen.
Denne intuisjonen leder til en annen formel, som ser slik ut:
hvor er en stegstørrelsesparameter som styrer læringshastigheten. Som i den forrige formelen kan alfa være , og det vil gi et gjennomsnittlig estimat. Alternativt brukes ofte en konstant , siden det ikke krever ekstra lagringsplass (for å lagre hvor mange ganger en handling er valgt) og tillater tilpasning til ikke-stasjonære miljøer ved å legge større vekt på nyere observasjoner.
Optimistisk initialisering
I begynnelsen av en treningsprosess kan estimatene for handlingsverdier variere betydelig, noe som kan føre til for tidlig utnyttelse. Dette innebærer at agenten kan utnytte sin innledende kunnskap for tidlig, og dermed favorisere suboptimale handlinger basert på begrenset erfaring. For å motvirke dette og oppmuntre til innledende utforskning, er en enkel og effektiv teknikk optimistisk initialisering.
Ved optimistisk initialisering blir handlingsverdiene satt til relativt høye verdier (for eksempel i stedet for 0). Denne tilnærmingen gir inntrykk av at alle handlinger er lovende i starten. Som et resultat blir agenten motivert til å utforske hver handling flere ganger før den velger det beste alternativet. Denne teknikken er mest effektiv når den brukes sammen med konstant steg-størrelse.
Den optimale handlingsraten i denne og fremtidige grafer refererer til andelen miljøer hvor den optimale handlingen ble valgt på et gitt tidspunkt.
For eksempel, hvis det er 10 testmiljøer, og den optimale handlingen ble valgt i 6 av dem ved tidstrinn 200, vil den optimale handlingsraten for det tidstrinnet være 0,6. Dette målet er nyttig for å evaluere ytelse fordi det korrelerer med maksimal belønning, uten å være avhengig av de eksakte belønningsverdiene.
Takk for tilbakemeldingene dine!