Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Bellmans Ekvationer
En Bellman-ekvation är en funktionalekvation som definierar en värdefunktion i rekursiv form.
För att förtydliga definitionen:
- En funktionalekvation är en ekvation vars lösning är en funktion. För Bellman-ekvationen är denna lösning värdefunktionen som ekvationen är formulerad för;
- En rekursiv form innebär att värdet i det aktuella tillståndet uttrycks i termer av värden i framtida tillstånd.
Sammanfattningsvis ger lösningen av Bellman-ekvationen den önskade värdefunktionen, och att härleda denna ekvation kräver att man identifierar en rekursiv relation mellan nuvarande och framtida tillstånd.
Tillståndsvärdefunktion
Som en påminnelse, här är en tillståndsvärdesfunktion i kompakt form:
För att erhålla Bellman-ekvationen för denna värdesfunktion, expanderar vi höger sida av ekvationen och etablerar en rekursiv relation:
Den sista ekvationen i denna kedja är en Bellman-ekvation för tillståndsvärdesfunktionen.
Intuition
För att bestämma värdet av ett tillstånd :
- Beakta alla möjliga handlingar du kan utföra från detta tillstånd, var och en viktad efter sannolikheten att du väljer den handlingen enligt din nuvarande policy ;
- För varje handling , beakta alla möjliga nästa tillstånd och belöningar , viktade efter deras sannolikhet ;
- För varje av dessa utfall, ta den omedelbara belöningen du får plus det diskonterade värdet av nästa tillstånd .
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillståndet under din nuvarande policy.
Aktionsvärdesfunktion
Här är en aktionsvärdesfunktion i kompakt form:
Härledning av Bellman-ekvationen för denna funktion är mycket lik den föregående:
Den sista ekvationen i denna kedja är en Bellman-ekvation för aktionsvärdesfunktionen.
Intuition
För att hitta värdet av ett tillstånd-aktionspar :
- Beakta alla möjliga nästa tillstånd och belöningar , viktade efter deras sannolikhet ;
- För varje av dessa utfall tar du den omedelbara belöningen du får plus det diskonterade värdet av nästa tillstånd;
- För att beräkna värdet av nästa tillstånd , multiplicera för alla möjliga handlingar från tillståndet , handlingsvärdet med sannolikheten att välja i tillståndet under nuvarande policy . Summera sedan allt för att få det slutliga värdet.
Genom att summera alla dessa möjligheter får du det totala förväntade värdet av tillstånd-aktionsparet under din nuvarande policy.
Tack för dina kommentarer!