Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Bellman-ligninger
En Bellman-ligning er en funksjonell ligning som definerer en verdifunksjon i rekursiv form.
For å tydeliggjøre definisjonen:
- En funksjonell ligning er en ligning der løsningen er en funksjon. For Bellman-ligningen er denne løsningen verdifunksjonen som ligningen er formulert for;
- En rekursiv form betyr at verdien i nåværende tilstand uttrykkes ved hjelp av verdier i fremtidige tilstander.
Kort sagt, å løse Bellman-ligningen gir den ønskede verdifunksjonen, og å utlede denne ligningen krever å identifisere et rekursivt forhold mellom nåværende og fremtidige tilstander.
Tilstandsverdifunksjon
Som en påminnelse, her er en tilstandsverdifunksjon i kompakt form:
For å utlede Bellman-likningen for denne verdifunksjonen, utvider vi høyresiden av likningen og etablerer et rekursivt forhold:
Den siste likningen i denne kjeden er en Bellman-likning for tilstandsverdifunksjonen.
Intuisjon
For å finne verdien til en tilstand :
- Vurder alle mulige handlinger du kan ta fra denne tilstanden, hver vektet etter hvor sannsynlig det er at du velger denne handlingen under din nåværende policy ;
- For hver handling vurderer du alle mulige neste tilstander og belønninger , vektet etter sannsynligheten ;
- For hvert av disse utfallene tar du den umiddelbare belønningen du får pluss den diskonterte verdien av neste tilstand .
Ved å summere alle disse mulighetene får du den totale forventede verdien av tilstanden under din nåværende policy.
Handlingsverdifunksjon
Her er en handlingsverdifunksjon i kompakt form:
Utledningen av Bellman-likningen for denne funksjonen ligner mye på den forrige:
Den siste likningen i denne kjeden er en Bellman-likning for handlingsverdifunksjonen.
Intuisjon
For å finne verdien til et tilstands-handlingspar , gjør du følgende:
- Vurder alle mulige neste tilstander og belønninger , vektet etter sannsynligheten ;
- For hvert av disse utfallene tar du den umiddelbare belønningen du får, pluss den diskonterte verdien av neste tilstand;
- For å beregne verdien av neste tilstand , for alle handlinger som er mulige fra tilstand , multipliserer du handlingsverdien med sannsynligheten for å velge i tilstand under gjeldende policy . Deretter summerer du alt for å få den endelige verdien.
Ved å summere alle disse mulighetene sammen, får du den totale forventede verdien av tilstands-handlingsparet under din nåværende policy.
Takk for tilbakemeldingene dine!