Iterazione delle Politiche
L'idea alla base della policy iteration è semplice:
- Scegliere una π e un v iniziali;
- Utilizzare la valutazione della policy per aggiornare v finché non è coerente con π;
- Utilizzare il miglioramento della policy per aggiornare π finché non è greedy rispetto a v;
- Ripetere i passaggi 2-3 fino alla convergenza.
In questo metodo, non ci sono aggiornamenti parziali:
- Durante la valutazione della policy, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
- Durante il miglioramento della policy, la policy viene resa greedy rispetto alla funzione di valore.
Pseudocodice
Tutto è chiaro?
Grazie per i tuoi commenti!
Sezione 3. Capitolo 7
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
How does policy iteration differ from value iteration?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Iterazione delle Politiche
Scorri per mostrare il menu
L'idea alla base della policy iteration è semplice:
- Scegliere una π e un v iniziali;
- Utilizzare la valutazione della policy per aggiornare v finché non è coerente con π;
- Utilizzare il miglioramento della policy per aggiornare π finché non è greedy rispetto a v;
- Ripetere i passaggi 2-3 fino alla convergenza.
In questo metodo, non ci sono aggiornamenti parziali:
- Durante la valutazione della policy, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
- Durante il miglioramento della policy, la policy viene resa greedy rispetto alla funzione di valore.
Pseudocodice
Tutto è chiaro?
Grazie per i tuoi commenti!
Sezione 3. Capitolo 7