Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Verdiiterasjon
Selv om policy iteration er en effektiv metode for å løse MDPer, har den en betydelig ulempe: hver iterasjon innebærer et eget policy evaluation-steg. Når policy evaluation utføres iterativt, krever det flere gjennomganger av hele tilstandsrommet, noe som fører til betydelig beregningsmessig belastning og lengre kjøretider.
Et godt alternativ er value iteration, en metode som kombinerer policy evaluation og policy improvement i ett enkelt steg. Denne metoden oppdaterer verdifunksjonen direkte til den konvergerer mot optimal verdifunksjon. Når konvergens er oppnådd, kan optimal policy utledes direkte fra denne optimale verdifunksjonen.
Hvordan fungerer det?
Value iteration fungerer ved å utføre kun én oppdatering under policy evaluation før policy improvement. Dette gir følgende oppdateringsformel:
Ved å gjøre Bellmans optimalitetslikning om til en oppdateringsregel, slås policy evaluation og policy improvement sammen til ett steg.
Pseudokode
Takk for tilbakemeldingene dine!