Miglioramento della Policy
Miglioramento della policy è un processo di miglioramento della policy basato sulle stime attuali della funzione di valore.
Come per la valutazione della policy, il miglioramento della policy può lavorare sia con la funzione di valore di stato sia con la funzione di valore d'azione. Tuttavia, per i metodi DP, verrà utilizzata la funzione di valore di stato.
Ora che puoi stimare la funzione di valore di stato per qualsiasi policy, un passo successivo naturale è esplorare se esistono policy migliori di quella attuale. Un modo per farlo è considerare di intraprendere un'azione diversa a in uno stato s, e seguire la policy attuale successivamente. Se questo ti sembra familiare, è perché è simile a come definiamo la funzione di valore d'azione:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Se questo nuovo valore è maggiore del valore originale dello stato vπ(s), indica che intraprendere l'azione a nello stato s e poi continuare con la politica π porta a risultati migliori rispetto a seguire rigorosamente la politica π. Poiché gli stati sono indipendenti, è ottimale selezionare sempre l'azione a ogni volta che si incontra lo stato s. Pertanto, possiamo costruire una politica migliorata π′, identica a π tranne per il fatto che seleziona l'azione a nello stato s, che sarebbe superiore alla politica originale π.
Teorema di miglioramento della politica
Il ragionamento descritto sopra può essere generalizzato come il teorema di miglioramento della politica:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)\qquqquad∀s∈S∀s∈SLa dimostrazione di questo teorema è relativamente semplice e può essere ottenuta tramite una sostituzione ripetuta:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Strategia di miglioramento
Sebbene aggiornare le azioni per alcuni stati possa portare a dei miglioramenti, è più efficace aggiornare le azioni per tutti gli stati simultaneamente. In particolare, per ogni stato s, selezionare l'azione a che massimizza il valore d'azione qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))dove argmax (abbreviazione di argomento del massimo) è un operatore che restituisce il valore della variabile che massimizza una data funzione.
La politica greedy risultante, indicata con π′, soddisfa le condizioni del teorema di miglioramento della politica per costruzione, garantendo che π′ sia almeno valida quanto la politica originale π, e tipicamente migliore.
Se π′ è valida quanto, ma non migliore di π, allora sia π′ che π sono politiche ottimali, poiché le loro funzioni di valore sono uguali e soddisfano l'equazione di ottimalità di Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
Miglioramento della Policy
Scorri per mostrare il menu
Miglioramento della policy è un processo di miglioramento della policy basato sulle stime attuali della funzione di valore.
Come per la valutazione della policy, il miglioramento della policy può lavorare sia con la funzione di valore di stato sia con la funzione di valore d'azione. Tuttavia, per i metodi DP, verrà utilizzata la funzione di valore di stato.
Ora che puoi stimare la funzione di valore di stato per qualsiasi policy, un passo successivo naturale è esplorare se esistono policy migliori di quella attuale. Un modo per farlo è considerare di intraprendere un'azione diversa a in uno stato s, e seguire la policy attuale successivamente. Se questo ti sembra familiare, è perché è simile a come definiamo la funzione di valore d'azione:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Se questo nuovo valore è maggiore del valore originale dello stato vπ(s), indica che intraprendere l'azione a nello stato s e poi continuare con la politica π porta a risultati migliori rispetto a seguire rigorosamente la politica π. Poiché gli stati sono indipendenti, è ottimale selezionare sempre l'azione a ogni volta che si incontra lo stato s. Pertanto, possiamo costruire una politica migliorata π′, identica a π tranne per il fatto che seleziona l'azione a nello stato s, che sarebbe superiore alla politica originale π.
Teorema di miglioramento della politica
Il ragionamento descritto sopra può essere generalizzato come il teorema di miglioramento della politica:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)\qquqquad∀s∈S∀s∈SLa dimostrazione di questo teorema è relativamente semplice e può essere ottenuta tramite una sostituzione ripetuta:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Strategia di miglioramento
Sebbene aggiornare le azioni per alcuni stati possa portare a dei miglioramenti, è più efficace aggiornare le azioni per tutti gli stati simultaneamente. In particolare, per ogni stato s, selezionare l'azione a che massimizza il valore d'azione qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))dove argmax (abbreviazione di argomento del massimo) è un operatore che restituisce il valore della variabile che massimizza una data funzione.
La politica greedy risultante, indicata con π′, soddisfa le condizioni del teorema di miglioramento della politica per costruzione, garantendo che π′ sia almeno valida quanto la politica originale π, e tipicamente migliore.
Se π′ è valida quanto, ma non migliore di π, allora sia π′ che π sono politiche ottimali, poiché le loro funzioni di valore sono uguali e soddisfano l'equazione di ottimalità di Bellman:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Grazie per i tuoi commenti!