Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Optimalitetsbetingelser
I det forrige kapitel lærte du om Bellman-ligninger for tilstandsværdi- og tilstands-handlingsværdifunktioner. Disse ligninger beskriver, hvordan tilstandsværdier kan defineres rekursivt gennem værdierne af andre tilstande, hvor værdierne afhænger af en given politik. Dog er ikke alle politikker lige effektive. Faktisk giver værdifunktioner en delvis orden for politikker, som kan beskrives således:
Så politik er bedre end eller lig med politik , hvis den forventede gevinst for politik for alle mulige tilstande ikke er mindre end den forventede gevinst for politik .
En delvis orden følger de sædvanlige ordensregler, men kræver ikke, at alle par sammenlignes. I vores tilfælde kan vi kun rangere to politikker, hvis de giver samme resultater, eller hvis den ene klart overgår den anden. I alle andre tilfælde forbliver politikker ukomparable.
Optimal politik
For enhver MDP findes der mindst én politik, der er lige så god som eller bedre end alle andre politikker. Denne politik kaldes en optimal politik . Selvom der kan være mange optimale politikker, betegnes de alle som .
Hvorfor eksisterer der altid en optimal politik?
Du undrer dig måske over, hvorfor en optimal politik altid eksisterer for enhver MDP. Det er et godt spørgsmål, og intuitionen bag det er overraskende enkel. Husk, at tilstande i en MDP fuldstændigt indfanger miljøets tilstand. Dette indebærer, at hver tilstand er uafhængig af alle andre: handlingen valgt i én tilstand påvirker ikke de belønninger eller resultater, der kan opnås i en anden. Derfor, ved at vælge den optimale handling i hver tilstand separat, opnår du naturligt den samlet bedste rækkefølge af handlinger gennem hele processen. Og dette sæt af optimale handlinger i hver tilstand udgør en optimal politik.
Derudover findes der altid mindst én politik, der er både optimal og deterministisk. Faktisk, hvis to handlinger og i en given tilstand giver det samme forventede afkast, vil det ikke påvirke politikkens optimalitet at vælge blot én af dem. Anvendes dette princip på hver eneste tilstand, bliver politikken deterministisk uden at miste sin optimalitet.
Optimale værdifunktioner
Optimale politikker deler de samme værdifunktioner — dette bliver tydeligt, når vi overvejer, hvordan politikker sammenlignes. Det betyder, at optimale politikker deler både tilstands-værdifunktion og aktions-værdifunktion.
Derudover har optimale værdifunktioner deres egne Bellman-ligninger, som kan skrives uden reference til en specifik politik. Disse ligninger kaldes Bellman-optimalitetsligninger.
Optimal tilstands-værdifunktion
Optimal tilstands-værdifunktion (eller ) repræsenterer den maksimale forventede gevinst, der kan opnås fra en given tilstand ved at følge en optimal politik.
Det kan matematisk defineres således:
Bellmans optimalitetsligning for denne værdifunktion kan udledes således:
Intuition
Som du allerede ved, findes der altid mindst én politik, der er både optimal og deterministisk. En sådan politik vil for hver tilstand konsekvent vælge én bestemt handling, der maksimerer den forventede belønning. Derfor vil sandsynligheden for at vælge denne optimale handling altid være 1, og sandsynligheden for at vælge enhver anden handling vil være 0. Givet dette behøver den oprindelige Bellman-ligning ikke længere summationsoperatoren. I stedet, da vi ved, at vi altid vælger den bedst mulige handling, kan vi blot erstatte summen med at tage et maksimum over alle tilgængelige handlinger.
Optimal handlingsværdifunktion
Optimal handlingsværdifunktion (eller ) repræsenterer den maksimale forventede belønning, der kan opnås ved at vælge en bestemt handling i en bestemt tilstand og derefter følge den optimale politik.
Det kan matematisk defineres som:
Bellmans optimalitetsligning for denne værdifunktion kan udledes således:
Intuition
På samme måde som tilstandsværdifunktionen kan summen erstattes med at tage maksimum over alle tilgængelige handlinger.
Tak for dine kommentarer!