Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Equazioni di Bellman
Un'equazione di Bellman è un'equazione funzionale che definisce una funzione di valore in forma ricorsiva.
Per chiarire la definizione:
- Un'equazione funzionale è un'equazione la cui soluzione è una funzione. Per l'equazione di Bellman, questa soluzione è la funzione di valore per cui l'equazione è stata formulata;
- Una forma ricorsiva significa che il valore nello stato attuale è espresso in termini di valori negli stati futuri.
In breve, risolvere l'equazione di Bellman fornisce la funzione di valore desiderata e derivare questa equazione richiede l'identificazione di una relazione ricorsiva tra stati attuali e futuri.
Funzione di valore dello stato
Come promemoria, ecco una funzione di valore di stato in forma compatta:
Per ottenere l'equazione di Bellman per questa funzione di valore, espandiamo il lato destro dell'equazione e definiamo una relazione ricorsiva:
L'ultima equazione di questa catena è un'equazione di Bellman per la funzione di valore di stato.
Intuizione
Per determinare il valore di uno stato , occorre:
- Considerare tutte le possibili azioni che si possono intraprendere da questo stato, ciascuna ponderata in base alla probabilità di scelta secondo la politica corrente ;
- Per ogni azione , considerare tutti i possibili stati successivi e ricompense , ponderati in base alla loro probabilità ;
- Per ciascuno di questi esiti, sommare la ricompensa immediata ottenuta più il valore scontato dello stato successivo .
Sommando tutte queste possibilità si ottiene il valore atteso totale dello stato secondo la politica corrente.
Funzione di valore d'azione
Ecco una funzione di valore d'azione in forma compatta:
La derivazione dell'equazione di Bellman per questa funzione è abbastanza simile a quella precedente:
L'ultima equazione di questa catena è un'equazione di Bellman per la funzione di valore d'azione.
Intuizione
Per trovare il valore di una coppia stato-azione , occorre:
- Considerare tutti i possibili stati successivi e ricompense , pesati in base alla loro probabilità ;
- Per ciascuno di questi esiti, sommare la ricompensa immediata ottenuta più il valore scontato dello stato successivo;
- Per calcolare il valore dello stato successivo , per tutte le azioni possibili dallo stato , moltiplicare il valore dell'azione per la probabilità di scegliere nello stato secondo la politica attuale . Infine, sommare tutto per ottenere il valore finale.
Sommando tutte queste possibilità, si ottiene il valore atteso totale della coppia stato-azione sotto la politica attuale.
Grazie per i tuoi commenti!