Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Iterazione delle Politiche
L'idea alla base della policy iteration è semplice:
- Scegliere una e un iniziali;
- Utilizzare la valutazione della policy per aggiornare finché non è coerente con ;
- Utilizzare il miglioramento della policy per aggiornare finché non è greedy rispetto a ;
- Ripetere i passaggi 2-3 fino alla convergenza.
In questo metodo, non ci sono aggiornamenti parziali:
- Durante la valutazione della policy, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
- Durante il miglioramento della policy, la policy viene resa greedy rispetto alla funzione di valore.
Pseudocodice
Tutto è chiaro?
Grazie per i tuoi commenti!
Sezione 3. Capitolo 7