Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Aktionsvärden
Åtgärdsvärde är ett grundläggande begrepp i MAB-problemet. Det spelar en avgörande roll i olika algoritmer, inklusive epsilon-girig och övre konfidensgräns. Det primära syftet med ett åtgärdsvärde är att ge en uppskattning av den förväntade belöningen när en specifik åtgärd väljs. Det liknar ett tillstånds-åtgärdsvärde, men är oberoende av tillstånd på grund av MAB-problemets tillståndslösa natur.
Definition av åtgärdsvärde
Formellt representerar åtgärdsvärdet, betecknat som , den förväntade belöningen av att välja åtgärd :
Där:
- är den mottagna belöningen;
- är den valda åtgärden.
Eftersom den sanna belöningsfördelningen vanligtvis är okänd, måste vi uppskatta med hjälp av observerade data.
Uppskattning av åtgärdsvärden
Det finns flera sätt att uppskatta baserat på observerade belöningar. Den vanligaste metoden är stickprovsmedelvärdesuppskattningen, som beräknar medelvärdet av de belöningar som erhållits från att välja åtgärd fram till tidpunkt :
där:
- är det uppskattade värdet för åtgärd vid tidpunkt ;
- är antalet gånger åtgärd har valts fram till tidpunkt ;
- är belöningen som erhållits vid varje tillfälle då åtgärd valdes.
När fler stickprov samlas in, konvergerar denna uppskattning mot den sanna förväntade belöningen under antagandet att belöningsfördelningen förblir stationär.
En stationär fördelning är en fördelning som inte förändras över tid, oavsett vilka åtgärder som vidtas eller hur miljön förändras.
Inkrementell uppdateringsregel
Även om formeln ovan kan användas för att uppskatta aktionsvärden, kräver den att alla tidigare belöningar lagras och att deras summa beräknas om vid varje tidssteg. Med inkrementella uppdateringar blir detta onödigt. Formeln för inkrementella uppdateringar kan härledas så här:
Där för en viss handling:
- är en uppskattning av den :te belöningen, som kan uttryckas som ett medelvärde av de första belöningarna;
- är den faktiska :te belöningen.
Intuition
Genom att känna till uppskattningen av den :te belöningen, , och den faktiska :te belöningen, , kan felet mätas som skillnaden mellan dessa värden. Därefter kan nästa uppskattning beräknas genom att justera den tidigare uppskattningen något i riktning mot den faktiska belöningen, för att minska felet.
Denna intuition leder till en annan formel, som ser ut så här:
Där är en steglängdsparameter som styr inlärningshastigheten. Precis som i den tidigare formeln kan alfa vara , vilket resulterar i en stickprovsbaserad medelvärdesuppskattning. Alternativt används ofta en konstant , eftersom det inte kräver något extra utrymme (för att lagra hur många gånger en handling har utförts) och möjliggör anpassning till icke-stationära miljöer genom att lägga större vikt vid senaste observationer.
Optimistisk initialisering
I början av en träningsprocess kan uppskattningarna av åtgärdsvärden variera avsevärt, vilket kan leda till för tidig exploatering. Detta innebär att agenten kan utnyttja sin initiala kunskap för tidigt och därmed gynna suboptimala åtgärder baserat på begränsad erfarenhet. För att motverka detta problem och uppmuntra till initial utforskning är en enkel och effektiv teknik optimistisk initialisering.
Vid optimistisk initialisering initieras åtgärdsvärden till relativt höga värden (t.ex. istället för 0). Detta skapar intrycket att alla åtgärder är initialt lovande. Som ett resultat uppmuntras agenten att utforska varje åtgärd flera gånger innan den bestämmer sig för det bästa valet. Denna teknik är mest effektiv när den används tillsammans med konstant steglängd.
Den optimala åtgärdsfrekvensen i denna och kommande diagram avser andelen miljöer där den optimala åtgärden valdes vid ett givet tidsteg.
Till exempel, om det finns 10 testmiljöer och den optimala åtgärden valdes i 6 av dem vid tidsteg 200, skulle den optimala åtgärdsfrekvensen för det tidsteget vara 0,6. Denna mätning är användbar för att utvärdera prestanda eftersom den korrelerar med att maximera belöningen, utan att vara beroende av de exakta belöningsvärdena.
Tack för dina kommentarer!