Impara Miglioramento della Policy | Programmazione Dinamica

Definizione

Miglioramento della policy è un processo di ottimizzazione della policy basato sulle stime attuali della funzione di valore.

Nota

Come per la valutazione della policy, il miglioramento della policy può essere applicato sia alla funzione di valore di stato sia alla funzione di valore d'azione. Tuttavia, per i metodi DP, verrà utilizzata la funzione di valore di stato.

Ora che è possibile stimare la funzione di valore di stato per qualsiasi policy, un passo successivo naturale è esplorare se esistono policy migliori rispetto a quella attuale. Un modo per farlo consiste nel considerare l'esecuzione di un'azione diversa $a$ in uno stato $s$ , e seguire successivamente la policy corrente. Se questo sembra familiare, è perché è simile a come viene definita la funzione di valore d'azione:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Se questo nuovo valore è maggiore del valore originale dello stato $v_\pi(s)$ , indica che intraprendere l'azione $a$ nello stato $s$ e poi continuare con la politica $\pi$ porta a risultati migliori rispetto a seguire rigorosamente la politica $\pi$ . Poiché gli stati sono indipendenti, è ottimale selezionare sempre l'azione $a$ ogni volta che si incontra lo stato $s$ . Pertanto, è possibile costruire una politica migliorata $\pi'$ , identica a $\pi$ tranne per il fatto che seleziona l'azione $a$ nello stato $s$ , che risulterebbe superiore rispetto alla politica originale $\pi$ .

Teorema del Miglioramento della Politica

Il ragionamento descritto sopra può essere generalizzato come il teorema del miglioramento della politica:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

La dimostrazione di questo teorema è relativamente semplice e può essere ottenuta tramite una sostituzione ripetuta:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Strategia di miglioramento

Sebbene aggiornare le azioni per determinati stati possa portare a miglioramenti, è più efficace aggiornare le azioni per tutti gli stati simultaneamente. In particolare, per ogni stato $s$ , selezionare l'azione $a$ che massimizza il valore d'azione $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

dove $\argmax$ (abbreviazione di argomento del massimo) è un operatore che restituisce il valore della variabile che massimizza una determinata funzione.

La politica greedy risultante, indicata con $\pi'$ , soddisfa per costruzione le condizioni del teorema di miglioramento della politica, garantendo che $\pi'$ sia almeno valida quanto la politica originale $\pi$ , e tipicamente migliore.

Se $\pi'$ è valida quanto, ma non migliore di $\pi$ , allora sia $\pi'$ che $\pi$ sono politiche ottimali, poiché le loro funzioni di valore sono uguali e soddisfano l'equazione di ottimalità di Bellman:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 5

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Scorri per mostrare il menu