Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Værdiiteration
Selvom policy iteration er en effektiv metode til at løse MDP'er, har den en væsentlig ulempe: Hver iteration indebærer et separat policy evaluation-trin. Når policy evaluation udføres iterativt, kræver det flere gennemløb af hele state space, hvilket medfører betydelig beregningsmæssig belastning og længere beregningstider.
Et godt alternativ er value iteration, en metode der kombinerer policy evaluation og policy improvement i ét enkelt trin. Denne metode opdaterer værdifunktionen direkte, indtil den konvergerer til den optimale værdifunktion. Når konvergens er opnået, kan den optimale policy udledes direkte fra denne optimale værdifunktion.
Hvordan fungerer det?
Value iteration fungerer ved kun at udføre én backup under policy evaluation, før policy improvement foretages. Dette resulterer i følgende opdateringsformel:
Ved at omsætte Bellmans optimalitetsligning til en opdateringsregel, kombineres policy evaluation og policy improvement i ét trin.
Pseudokode
Tak for dine kommentarer!