Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Condizioni di Ottimalità
Nel capitolo precedente, hai appreso le equazioni di Bellman per le funzioni di valore di stato e di valore stato-azione. Queste equazioni descrivono come i valori degli stati possano essere definiti ricorsivamente attraverso i valori di altri stati, con i valori che dipendono da una determinata politica. Tuttavia, non tutte le politiche sono ugualmente efficaci. Infatti, le funzioni di valore forniscono un ordinamento parziale per le politiche, che può essere descritto come segue:
Quindi la politica è migliore o uguale alla politica se, per tutti gli stati possibili, il rendimento atteso della politica non è inferiore al rendimento atteso della politica .
Un ordinamento parziale segue le regole usuali dell'ordinamento ma non obbliga a confrontare ogni coppia. Nel nostro caso, possiamo classificare due politiche solo se producono gli stessi risultati, oppure se una supera chiaramente l'altra. In tutti gli altri casi, le politiche rimangono incomparabili.
Politica Ottimale
Per qualsiasi MDP, esiste almeno una politica che è buona quanto o migliore di tutte le altre politiche. Questa politica è chiamata politica ottimale . Sebbene possano esistere molte politiche ottimali, tutte sono indicate come .
Perché esiste sempre una politica ottimale?
Potresti chiederti perché una politica ottimale esiste sempre per qualsiasi MDP. È una domanda interessante, e l'intuizione alla base è sorprendentemente semplice. Ricorda che gli stati in un MDP catturano completamente la condizione dell'ambiente. Questo implica che ogni stato è indipendente dagli altri: l'azione scelta in uno stato non influisce sulle ricompense o sugli esiti ottenibili in un altro. Pertanto, selezionando l'azione ottimale in ciascuno stato separatamente, si ottiene naturalmente la migliore sequenza complessiva di azioni nell'intero processo. E questo insieme di azioni ottimali in ogni stato costituisce una politica ottimale.
Inoltre, esiste sempre almeno una politica che è sia ottimale sia deterministica. Infatti, se per uno stato , due azioni e producono lo stesso rendimento atteso, sceglierne solo una non influirà sull'ottimalità della politica. Applicando questo principio a ogni singolo stato, la politica diventerà deterministica pur mantenendo la sua ottimalità.
Funzioni di Valore Ottimali
Le politiche ottimali condividono le stesse funzioni di valore — un fatto che diventa evidente quando si considera come vengono confrontate le politiche. Questo significa che le politiche ottimali condividono sia la funzione di valore di stato sia la funzione di valore d'azione.
Inoltre, le funzioni di valore ottimali possiedono le proprie equazioni di Bellman che possono essere scritte senza fare riferimento a una politica specifica. Queste equazioni sono chiamate equazioni di ottimalità di Bellman.
Funzione di valore di stato ottimale
La funzione di valore di stato ottimale (o ) rappresenta il rendimento atteso massimo ottenibile da uno stato specifico seguendo una politica ottimale.
Può essere definito matematicamente come segue:
L'equazione di ottimalità di Bellman per questa funzione di valore può essere derivata come segue:
Intuizione
Come già noto, esiste sempre almeno una politica che è sia ottimale sia deterministica. Una tale politica, per ogni stato, selezionerebbe costantemente una particolare azione che massimizza i ritorni attesi. Pertanto, la probabilità di scegliere questa azione ottimale sarebbe sempre 1, mentre la probabilità di scegliere qualsiasi altra azione sarebbe 0. Dato ciò, l'equazione di Bellman originale non necessita più dell'operatore di sommatoria. Invece, poiché sappiamo che selezioneremo sempre la migliore azione possibile, possiamo semplicemente sostituire la somma prendendo il massimo su tutte le azioni disponibili.
Funzione di valore d'azione ottimale
Funzione di valore d'azione ottimale (o ) rappresenta il rendimento atteso massimo ottenibile eseguendo una determinata azione in uno stato specifico e seguendo successivamente la politica ottimale.
Può essere definita matematicamente come segue:
Equazione di ottimalità di Bellman per questa funzione di valore può essere derivata come segue:
Intuizione
Analogamente alla funzione di valore di stato, la somma può essere sostituita prendendo il massimo su tutte le azioni disponibili.
Grazie per i tuoi commenti!