Værdiiteration
Selvom policy iteration er en effektiv metode til at løse MDP'er, har den en væsentlig ulempe: Hver iteration indebærer et separat policy evaluation-trin. Når policy evaluation udføres iterativt, kræver det flere gennemløb af hele state space, hvilket medfører betydelig beregningsmæssig belastning og længere beregningstider.
Et godt alternativ er value iteration, en metode der kombinerer policy evaluation og policy improvement i ét enkelt trin. Denne metode opdaterer værdifunktionen direkte, indtil den konvergerer til den optimale værdifunktion. Når konvergens er opnået, kan den optimale policy udledes direkte fra denne optimale værdifunktion.
Hvordan fungerer det?
Value iteration fungerer ved kun at udføre én backup under policy evaluation, før policy improvement foretages. Dette resulterer i følgende opdateringsformel:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SVed at omsætte Bellmans optimalitetsligning til en opdateringsregel, kombineres policy evaluation og policy improvement i ét trin.
Pseudokode
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
Værdiiteration
Stryg for at vise menuen
Selvom policy iteration er en effektiv metode til at løse MDP'er, har den en væsentlig ulempe: Hver iteration indebærer et separat policy evaluation-trin. Når policy evaluation udføres iterativt, kræver det flere gennemløb af hele state space, hvilket medfører betydelig beregningsmæssig belastning og længere beregningstider.
Et godt alternativ er value iteration, en metode der kombinerer policy evaluation og policy improvement i ét enkelt trin. Denne metode opdaterer værdifunktionen direkte, indtil den konvergerer til den optimale værdifunktion. Når konvergens er opnået, kan den optimale policy udledes direkte fra denne optimale værdifunktion.
Hvordan fungerer det?
Value iteration fungerer ved kun at udføre én backup under policy evaluation, før policy improvement foretages. Dette resulterer i følgende opdateringsformel:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SVed at omsætte Bellmans optimalitetsligning til en opdateringsregel, kombineres policy evaluation og policy improvement i ét trin.
Pseudokode
Tak for dine kommentarer!