Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Generel Policy-Iteration
I de foregående kapitler lærte du om politikevaluering og politikforbedring. Disse processer supplerer hinanden og kombineres naturligt i en ramme kendt som generaliseret politikiteration.
Generaliseret politikiteration (GPI) er en ramme, hvor politikevaluering og politikforbedring interagerer iterativt med det fælles mål at bestemme en optimal politik.
De fleste metoder inden for reinforcement learning kan beskrives inden for rammen af GPI. De væsentligste forskelle mellem disse metoder skyldes de specifikke implementeringer af politikevaluering og politikforbedring samt karakteren af deres interaktioner.
Interaktion mellem to processer
Politikevaluering og politikforbedring kan betragtes som både samarbejdende og konkurrerende processer, afhængigt af perspektivet:
- Samarbejdende: Begge processer arbejder mod et fælles mål—at finde den optimale politik og værdifunktion. Politikevaluering estimerer værdifunktionen for en given politik, mens politikforbedring forfiner politikken baseret på disse estimater;
- Konkurrerende: Hver proces har modstridende mål. Politikevaluering sigter mod nøjagtigt at estimere værdifunktionen for den nuværende politik, hvilket ofte medfører, at politikken ikke længere er grådig. Omvendt justerer politikforbedring politikken til at være grådig i forhold til de aktuelle værdifunktionsestimater, hvilket typisk gør disse estimater forkerte. Denne konstante frem-og-tilbage fortsætter, indtil både politik og værdifunktion konvergerer til deres optimale former.
Resumé
Generaliseret politik-iteration er en nyttig ramme for at forstå, hvordan forskellige reinforcement learning-metoder nærmer sig løsningen af MDP'er. I de kommende kapitler vil du udforske, hvordan disse idéer kan anvendes til at skabe to essentielle DP-metoder: politik-iteration og værdi-iteration.
Tak for dine kommentarer!