Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Miglioramento della Policy
Miglioramento della policy è un processo di miglioramento della policy basato sulle stime attuali della funzione di valore.
Come per la valutazione della policy, il miglioramento della policy può lavorare sia con la funzione di valore di stato sia con la funzione di valore d'azione. Tuttavia, per i metodi DP, verrà utilizzata la funzione di valore di stato.
Ora che puoi stimare la funzione di valore di stato per qualsiasi policy, un passo successivo naturale è esplorare se esistono policy migliori di quella attuale. Un modo per farlo è considerare di intraprendere un'azione diversa in uno stato , e seguire la policy attuale successivamente. Se questo ti sembra familiare, è perché è simile a come definiamo la funzione di valore d'azione:
Se questo nuovo valore è maggiore del valore originale dello stato , indica che intraprendere l'azione nello stato e poi continuare con la politica porta a risultati migliori rispetto a seguire rigorosamente la politica . Poiché gli stati sono indipendenti, è ottimale selezionare sempre l'azione ogni volta che si incontra lo stato . Pertanto, possiamo costruire una politica migliorata , identica a tranne per il fatto che seleziona l'azione nello stato , che sarebbe superiore alla politica originale .
Teorema di miglioramento della politica
Il ragionamento descritto sopra può essere generalizzato come il teorema di miglioramento della politica:
La dimostrazione di questo teorema è relativamente semplice e può essere ottenuta tramite una sostituzione ripetuta:
Strategia di miglioramento
Sebbene aggiornare le azioni per alcuni stati possa portare a dei miglioramenti, è più efficace aggiornare le azioni per tutti gli stati simultaneamente. In particolare, per ogni stato , selezionare l'azione che massimizza il valore d'azione :
dove (abbreviazione di argomento del massimo) è un operatore che restituisce il valore della variabile che massimizza una data funzione.
La politica greedy risultante, indicata con , soddisfa le condizioni del teorema di miglioramento della politica per costruzione, garantendo che sia almeno valida quanto la politica originale , e tipicamente migliore.
Se è valida quanto, ma non migliore di , allora sia che sono politiche ottimali, poiché le loro funzioni di valore sono uguali e soddisfano l'equazione di ottimalità di Bellman:
Grazie per i tuoi commenti!