Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Bellman-Ligninger
En Bellman-ligning er en funktionel ligning, der definerer en værdifunktion i rekursiv form.
For at præcisere definitionen:
- En funktionel ligning er en ligning, hvis løsning er en funktion. For Bellman-ligningen er denne løsning værdifunktionen, som ligningen er formuleret for;
- En rekursiv form betyder, at værdien i den nuværende tilstand udtrykkes ved hjælp af værdier i fremtidige tilstande.
Kort sagt, løsning af Bellman-ligningen giver den ønskede værdifunktion, og udledning af denne ligning kræver identifikation af et rekursivt forhold mellem nuværende og fremtidige tilstande.
Tilstands-værdifunktion
Som en påmindelse er her en tilstandsværdi-funktion i kompakt form:
For at opnå Bellman-ligningen for denne værdifunktion, udvider vi højresiden af ligningen og etablerer en rekursiv relation:
Den sidste ligning i denne kæde er en Bellman-ligning for tilstandsværdi-funktionen.
Intuition
For at finde værdien af en tilstand :
- Overvej alle mulige handlinger , du kan udføre fra denne tilstand, hver vægtet efter sandsynligheden for at vælge denne handling under din nuværende politik ;
- For hver handling overvejes alle mulige næste tilstande og belønninger , vægtet efter deres sandsynlighed ;
- For hvert af disse udfald tages den umiddelbare belønning plus den diskonterede værdi af næste tilstand .
Ved at summere alle disse muligheder opnås den samlede forventede værdi af tilstanden under din nuværende politik.
Aktionsværdifunktion
Her er en aktionsværdifunktion i kompakt form:
Udledningen af Bellman-ligningen for denne funktion ligner meget den foregående:
Den sidste ligning i denne kæde er en Bellman-ligning for aktionsværdifunktionen.
Intuition
For at finde værdien af et tilstands-handlingspar :
- Overvej alle mulige næste tilstande og belønninger , vægtet efter deres sandsynlighed ;
- For hvert af disse udfald tages den umiddelbare belønning plus den diskonterede værdi af den næste tilstand;
- For at beregne værdien af den næste tilstand , for alle handlinger mulige fra tilstand , multipliceres handlingsværdien med sandsynligheden for at vælge i tilstand under den nuværende politik . Til sidst summeres alt for at opnå den endelige værdi.
Ved at summere alle disse muligheder sammen opnås den samlede forventede værdi af tilstands-handlingsparret under den nuværende politik.
Tak for dine kommentarer!