Aktionsværdier
Handlingsværdi er et grundlæggende begreb i MAB-problemet. Det spiller en central rolle i forskellige algoritmer, herunder epsilon-grådig og øvre konfidensgrænse. Hovedformålet med en handlingsværdi er at give et estimat af den forventede belønning, når en bestemt handling vælges. Det ligner en tilstands-handlingsværdi, men er uafhængig af en tilstand på grund af MAB-problemet's tilstandsløse karakter.
Definition af handlingsværdi
Formelt repræsenterer handlingsværdien, betegnet som Q(a), den forventede belønning ved at vælge handling a:
Q(a)=E[R∣A=a]hvor:
- R er den modtagne belønning;
- A er den valgte handling.
Da den sande belønningsfordeling typisk er ukendt, er vi nødt til at estimere Q(a) ved hjælp af observerede data.
Estimering af handlingsværdier
Der findes flere metoder til at estimere Q(a) baseret på observerede belønninger. Den mest almindelige metode er gennemsnitlig stikprøveestimat, som beregner den gennemsnitlige belønning opnået ved at vælge handling a op til tidspunkt t:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Rihvor:
- Qt(a) er den estimerede værdi af handling a ved tidstrin t;
- Nt(a) er antallet af gange handling a er blevet valgt op til tidspunkt t;
- Ri er belønningen opnået i hver forekomst, hvor handling a blev udført.
Når flere stikprøver indsamles, vil dette estimat konvergere mod den sande forventede belønning Q∗(a), forudsat at belønningsfordelingen forbliver stationær.
En stationær fordeling er en fordeling, der ikke ændrer sig over tid, uanset hvilke handlinger der vælges eller hvordan miljøet ændrer sig.
Inkrementel opdateringsregel
Selvom ovenstående formel kan bruges til at estimere handlingsværdier, kræver den, at alle tidligere belønninger gemmes, og at deres sum genberegnes ved hvert tidssteg. Med inkrementelle opdateringer bliver dette unødvendigt. Formlen for inkrementelle opdateringer kan udledes således:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)hvor for en given handling:
- Qk er et estimat af den k-te belønning, som kan udtrykkes som gennemsnittet af de første k−1 belønninger;
- Rk er den faktiske k-te belønning.
Intuition
Når man kender estimatet af den k-te belønning, Qk, og den faktiske k-te belønning, Rk, kan fejlen måles som forskellen mellem disse værdier. Herefter kan det næste estimat beregnes ved at justere det forrige estimat en smule i retning af den faktiske belønning for at reducere fejlen.
Denne intuition fører til en anden formel, som ser således ud:
Qk+1=Qk+α(Rk−Qk)hvor α er en trin-størrelsesparameter, der styrer indlæringshastigheden. Ligesom i den forrige formel kan alfa være k1, hvilket vil resultere i et stikprøvegennemsnit. Alternativt anvendes ofte en konstant α, da det ikke kræver ekstra plads (til at gemme hvor mange gange en handling er udført) og muliggør tilpasning til ikke-stationære miljøer ved at lægge større vægt på nyere observationer.
Optimistisk initialisering
I begyndelsen af en træningsproces kan estimater for handlingsværdier variere betydeligt, hvilket kan føre til for tidlig udnyttelse. Dette betyder, at agenten kan udnytte sin indledende viden for tidligt og favorisere suboptimale handlinger baseret på begrænset erfaring. For at afbøde dette problem og fremme indledende udforskning er en enkel og effektiv teknik optimistisk initialisering.
Ved optimistisk initialisering initialiseres handlingsværdier til relativt høje værdier (f.eks. Q0(a)=1 i stedet for 0). Denne tilgang skaber indtrykket af, at alle handlinger er lovende fra starten. Som resultat bliver agenten tilskyndet til at udforske hver handling flere gange, før den vælger det bedste valg. Denne teknik er mest effektiv, når den anvendes sammen med konstant trin-størrelse.
Optimal handlingsrate i denne og fremtidige grafer refererer til andelen af miljøer, hvor den optimale handling blev valgt på et givent tidspunkt.
For eksempel, hvis der er 10 testmiljøer, og den optimale handling blev valgt i 6 af dem ved tidssteg 200, vil den optimale handlingsrate for dette tidssteg være 0,6. Denne måling er nyttig til at evaluere ydeevne, fordi den korrelerer med maksimering af belønningen uden at afhænge af de præcise belønningsværdier.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
Aktionsværdier
Stryg for at vise menuen
Handlingsværdi er et grundlæggende begreb i MAB-problemet. Det spiller en central rolle i forskellige algoritmer, herunder epsilon-grådig og øvre konfidensgrænse. Hovedformålet med en handlingsværdi er at give et estimat af den forventede belønning, når en bestemt handling vælges. Det ligner en tilstands-handlingsværdi, men er uafhængig af en tilstand på grund af MAB-problemet's tilstandsløse karakter.
Definition af handlingsværdi
Formelt repræsenterer handlingsværdien, betegnet som Q(a), den forventede belønning ved at vælge handling a:
Q(a)=E[R∣A=a]hvor:
- R er den modtagne belønning;
- A er den valgte handling.
Da den sande belønningsfordeling typisk er ukendt, er vi nødt til at estimere Q(a) ved hjælp af observerede data.
Estimering af handlingsværdier
Der findes flere metoder til at estimere Q(a) baseret på observerede belønninger. Den mest almindelige metode er gennemsnitlig stikprøveestimat, som beregner den gennemsnitlige belønning opnået ved at vælge handling a op til tidspunkt t:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Rihvor:
- Qt(a) er den estimerede værdi af handling a ved tidstrin t;
- Nt(a) er antallet af gange handling a er blevet valgt op til tidspunkt t;
- Ri er belønningen opnået i hver forekomst, hvor handling a blev udført.
Når flere stikprøver indsamles, vil dette estimat konvergere mod den sande forventede belønning Q∗(a), forudsat at belønningsfordelingen forbliver stationær.
En stationær fordeling er en fordeling, der ikke ændrer sig over tid, uanset hvilke handlinger der vælges eller hvordan miljøet ændrer sig.
Inkrementel opdateringsregel
Selvom ovenstående formel kan bruges til at estimere handlingsværdier, kræver den, at alle tidligere belønninger gemmes, og at deres sum genberegnes ved hvert tidssteg. Med inkrementelle opdateringer bliver dette unødvendigt. Formlen for inkrementelle opdateringer kan udledes således:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)hvor for en given handling:
- Qk er et estimat af den k-te belønning, som kan udtrykkes som gennemsnittet af de første k−1 belønninger;
- Rk er den faktiske k-te belønning.
Intuition
Når man kender estimatet af den k-te belønning, Qk, og den faktiske k-te belønning, Rk, kan fejlen måles som forskellen mellem disse værdier. Herefter kan det næste estimat beregnes ved at justere det forrige estimat en smule i retning af den faktiske belønning for at reducere fejlen.
Denne intuition fører til en anden formel, som ser således ud:
Qk+1=Qk+α(Rk−Qk)hvor α er en trin-størrelsesparameter, der styrer indlæringshastigheden. Ligesom i den forrige formel kan alfa være k1, hvilket vil resultere i et stikprøvegennemsnit. Alternativt anvendes ofte en konstant α, da det ikke kræver ekstra plads (til at gemme hvor mange gange en handling er udført) og muliggør tilpasning til ikke-stationære miljøer ved at lægge større vægt på nyere observationer.
Optimistisk initialisering
I begyndelsen af en træningsproces kan estimater for handlingsværdier variere betydeligt, hvilket kan føre til for tidlig udnyttelse. Dette betyder, at agenten kan udnytte sin indledende viden for tidligt og favorisere suboptimale handlinger baseret på begrænset erfaring. For at afbøde dette problem og fremme indledende udforskning er en enkel og effektiv teknik optimistisk initialisering.
Ved optimistisk initialisering initialiseres handlingsværdier til relativt høje værdier (f.eks. Q0(a)=1 i stedet for 0). Denne tilgang skaber indtrykket af, at alle handlinger er lovende fra starten. Som resultat bliver agenten tilskyndet til at udforske hver handling flere gange, før den vælger det bedste valg. Denne teknik er mest effektiv, når den anvendes sammen med konstant trin-størrelse.
Optimal handlingsrate i denne og fremtidige grafer refererer til andelen af miljøer, hvor den optimale handling blev valgt på et givent tidspunkt.
For eksempel, hvis der er 10 testmiljøer, og den optimale handling blev valgt i 6 af dem ved tidssteg 200, vil den optimale handlingsrate for dette tidssteg være 0,6. Denne måling er nyttig til at evaluere ydeevne, fordi den korrelerer med maksimering af belønningen uden at afhænge af de præcise belønningsværdier.
Tak for dine kommentarer!