Iterazione delle Politiche
L'idea alla base della policy iteration è semplice:
- Scegliere una π e un v iniziali;
- Utilizzare la valutazione della policy per aggiornare v finché non è coerente con π;
- Utilizzare il miglioramento della policy per aggiornare π finché non è greedy rispetto a v;
- Ripetere i passaggi 2-3 fino alla convergenza.
In questo metodo, non ci sono aggiornamenti parziali:
- Durante la valutazione della policy, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
- Durante il miglioramento della policy, la policy viene resa greedy rispetto alla funzione di valore.
Pseudocodice
Tutto è chiaro?
Grazie per i tuoi commenti!
Sezione 3. Capitolo 7
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
Iterazione delle Politiche
Scorri per mostrare il menu
L'idea alla base della policy iteration è semplice:
- Scegliere una π e un v iniziali;
- Utilizzare la valutazione della policy per aggiornare v finché non è coerente con π;
- Utilizzare il miglioramento della policy per aggiornare π finché non è greedy rispetto a v;
- Ripetere i passaggi 2-3 fino alla convergenza.
In questo metodo, non ci sono aggiornamenti parziali:
- Durante la valutazione della policy, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
- Durante il miglioramento della policy, la policy viene resa greedy rispetto alla funzione di valore.
Pseudocodice
Tutto è chiaro?
Grazie per i tuoi commenti!
Sezione 3. Capitolo 7