Equazioni di Bellman
Un'equazione di Bellman è un'equazione funzionale che definisce una funzione di valore in forma ricorsiva.
Per chiarire la definizione:
- Un'equazione funzionale è un'equazione la cui soluzione è una funzione. Per l'equazione di Bellman, questa soluzione è la funzione di valore per cui l'equazione è stata formulata;
- Una forma ricorsiva significa che il valore nello stato attuale è espresso in termini di valori negli stati futuri.
In breve, risolvere l'equazione di Bellman fornisce la funzione di valore desiderata e derivare questa equazione richiede l'identificazione di una relazione ricorsiva tra stati attuali e futuri.
Funzione di valore dello stato
Come promemoria, ecco una funzione di valore di stato in forma compatta:
vπ(s)=Eπ[Gt∣St=s]Per ottenere l'equazione di Bellman per questa funzione di valore, espandiamo il lato destro dell'equazione e definiamo una relazione ricorsiva:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))L'ultima equazione di questa catena è un'equazione di Bellman per la funzione di valore di stato.
Intuizione
Per determinare il valore di uno stato s, occorre:
- Considerare tutte le possibili azioni a che si possono intraprendere da questo stato, ciascuna ponderata in base alla probabilità di scelta secondo la politica corrente π(a∣s);
- Per ogni azione a, considerare tutti i possibili stati successivi s′ e ricompense r, ponderati in base alla loro probabilità p(s′,r∣s,a);
- Per ciascuno di questi esiti, sommare la ricompensa immediata r ottenuta più il valore scontato dello stato successivo γvπ(s′).
Sommando tutte queste possibilità si ottiene il valore atteso totale dello stato s secondo la politica corrente.
Funzione di valore d'azione
Ecco una funzione di valore d'azione in forma compatta:
qπ(s,a)=Eπ[Gt∣St=s,At=a]La derivazione dell'equazione di Bellman per questa funzione è abbastanza simile a quella precedente:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))L'ultima equazione di questa catena è un'equazione di Bellman per la funzione di valore d'azione.
Intuizione
Per trovare il valore di una coppia stato-azione (s,a), occorre:
- Considerare tutti i possibili stati successivi s′ e ricompense r, pesati in base alla loro probabilità p(s′,r∣s,a);
- Per ciascuno di questi esiti, sommare la ricompensa immediata r ottenuta più il valore scontato dello stato successivo;
- Per calcolare il valore dello stato successivo s′, per tutte le azioni a′ possibili dallo stato s′, moltiplicare il valore dell'azione q(s′,a′) per la probabilità di scegliere a′ nello stato s′ secondo la politica attuale π(a′∣s′. Infine, sommare tutto per ottenere il valore finale.
Sommando tutte queste possibilità, si ottiene il valore atteso totale della coppia stato-azione (s,a) sotto la politica attuale.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
Equazioni di Bellman
Scorri per mostrare il menu
Un'equazione di Bellman è un'equazione funzionale che definisce una funzione di valore in forma ricorsiva.
Per chiarire la definizione:
- Un'equazione funzionale è un'equazione la cui soluzione è una funzione. Per l'equazione di Bellman, questa soluzione è la funzione di valore per cui l'equazione è stata formulata;
- Una forma ricorsiva significa che il valore nello stato attuale è espresso in termini di valori negli stati futuri.
In breve, risolvere l'equazione di Bellman fornisce la funzione di valore desiderata e derivare questa equazione richiede l'identificazione di una relazione ricorsiva tra stati attuali e futuri.
Funzione di valore dello stato
Come promemoria, ecco una funzione di valore di stato in forma compatta:
vπ(s)=Eπ[Gt∣St=s]Per ottenere l'equazione di Bellman per questa funzione di valore, espandiamo il lato destro dell'equazione e definiamo una relazione ricorsiva:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))L'ultima equazione di questa catena è un'equazione di Bellman per la funzione di valore di stato.
Intuizione
Per determinare il valore di uno stato s, occorre:
- Considerare tutte le possibili azioni a che si possono intraprendere da questo stato, ciascuna ponderata in base alla probabilità di scelta secondo la politica corrente π(a∣s);
- Per ogni azione a, considerare tutti i possibili stati successivi s′ e ricompense r, ponderati in base alla loro probabilità p(s′,r∣s,a);
- Per ciascuno di questi esiti, sommare la ricompensa immediata r ottenuta più il valore scontato dello stato successivo γvπ(s′).
Sommando tutte queste possibilità si ottiene il valore atteso totale dello stato s secondo la politica corrente.
Funzione di valore d'azione
Ecco una funzione di valore d'azione in forma compatta:
qπ(s,a)=Eπ[Gt∣St=s,At=a]La derivazione dell'equazione di Bellman per questa funzione è abbastanza simile a quella precedente:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))L'ultima equazione di questa catena è un'equazione di Bellman per la funzione di valore d'azione.
Intuizione
Per trovare il valore di una coppia stato-azione (s,a), occorre:
- Considerare tutti i possibili stati successivi s′ e ricompense r, pesati in base alla loro probabilità p(s′,r∣s,a);
- Per ciascuno di questi esiti, sommare la ricompensa immediata r ottenuta più il valore scontato dello stato successivo;
- Per calcolare il valore dello stato successivo s′, per tutte le azioni a′ possibili dallo stato s′, moltiplicare il valore dell'azione q(s′,a′) per la probabilità di scegliere a′ nello stato s′ secondo la politica attuale π(a′∣s′. Infine, sommare tutto per ottenere il valore finale.
Sommando tutte queste possibilità, si ottiene il valore atteso totale della coppia stato-azione (s,a) sotto la politica attuale.
Grazie per i tuoi commenti!