Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Iterazione Generalizzata delle Politiche
Nei capitoli precedenti, hai appreso la valutazione della policy e il miglioramento della policy. Questi processi si completano a vicenda e si combinano naturalmente in un quadro noto come generalized policy iteration.
Generalized policy iteration (GPI) è un quadro in cui la valutazione della policy e il miglioramento della policy interagiscono iterativamente con l'obiettivo comune di determinare una policy ottimale.
La maggior parte dei metodi di reinforcement learning può essere descritta all'interno del quadro della GPI. Le principali differenze tra questi metodi derivano dalle implementazioni specifiche della valutazione e del miglioramento della policy, nonché dalla natura delle loro interazioni.
Interazione tra Due Processi
La valutazione della politica e il miglioramento della politica possono essere considerate sia processi cooperativi che competitivi, a seconda della prospettiva:
- Cooperativi: entrambi i processi lavorano verso un obiettivo comune—trovare la politica ottimale e la funzione di valore ottimale. La valutazione della politica stima la funzione di valore per una data politica, mentre il miglioramento della politica affina la politica sulla base di queste stime;
- Competitivi: ciascun processo ha obiettivi contrastanti. La valutazione della politica mira a stimare accuratamente la funzione di valore per la politica corrente, spesso facendo sì che la politica non sia più greedy. Al contrario, il miglioramento della politica adatta la politica affinché sia greedy rispetto alle stime attuali della funzione di valore, tipicamente rendendo tali stime non corrette. Questo costante tira e molla continua fino a quando sia la politica che la funzione di valore convergono alle loro forme ottimali.
Riepilogo
L'iterazione generalizzata delle politiche è un quadro utile per comprendere come diversi metodi di apprendimento per rinforzo affrontano la risoluzione degli MDP. Nei prossimi capitoli, esplorerai come queste idee possano essere applicate per creare due metodi fondamentali di programmazione dinamica: iterazione delle politiche e iterazione dei valori.
Grazie per i tuoi commenti!