Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Controllo Monte Carlo Off-Policy
Mentre i metodi on-policy apprendono seguendo e migliorando la stessa politica, i metodi off-policy introducono una variazione: apprendono riguardo a una politica (la politica target) mentre ne seguono un'altra (la politica di comportamento). Questa separazione è potente — consente di valutare o migliorare una politica target senza la necessità di seguirla effettivamente durante la raccolta dei dati.
Analogia
Torniamo alla gelateria del capitolo precedente. Tu e il tuo amico entrate e, ancora una volta, ci sono i tre gusti familiari: cioccolato, vaniglia e fragola. Il cioccolato è il tuo preferito, e il tuo primo istinto è ordinarlo. Tuttavia, questa gelateria è nuova per te e non sei sicuro che scegliere il cioccolato sia la scelta giusta. Fortunatamente, il tuo amico è un appassionato di gelato che ha visitato quasi tutte le gelaterie della città. Chiedi la sua opinione. "Il cioccolato qui è discreto," dice, "ma fidati — la fragola è eccezionale." Così, basandoti sulla sua esperienza, decidi di saltare la tua solita scelta e optare invece per la fragola.
Questa decisione — affidarsi all'esperienza di qualcun altro per guidare la propria scelta — rappresenta l'essenza dei metodi off-policy. Si cerca di migliorare il processo decisionale utilizzando dati raccolti secondo il comportamento di un altro. Si tratta comunque di esplorazione, ma guidata da esperienze esterne invece che dalle proprie.
Campionamento di importanza
Poiché l'agente segue la policy di comportamento durante la generazione degli episodi, è necessario tenere conto della discrepanza tra ciò che la policy di comportamento genera e ciò che la policy target genererebbe. È qui che entra in gioco il campionamento di importanza.
Il campionamento per importanza fornisce un metodo per regolare i ritorni osservati sotto la policy di comportamento affinché siano stime valide per la policy target.
Consideriamo una traiettoria che inizia da uno stato e segue una certa policy fino a quando l'episodio termina in un tempo . In particolare, osserviamo:
Qual è la probabilità che questa traiettoria si verifichi sotto una policy ? Dipende sia dalle probabilità delle azioni della policy sia dalla dinamica di transizione dell'ambiente:
Supponiamo ora che la traiettoria sia stata effettivamente generata da una policy diversa — la policy di comportamento . Per utilizzare correttamente questa traiettoria per stimare le aspettative sotto la policy target , dobbiamo considerare quanto questa sequenza di azioni sarebbe stata più o meno probabile sotto rispetto a .
Qui entra in gioco il rapporto di campionamento per importanza. Esso è definito come la probabilità relativa della traiettoria sotto le due policy:
Alla fine, le probabilità di transizione si annullano, poiché entrambe le policy operano nello stesso ambiente, e il valore di dipende solo dalle policy, non dall'ambiente.
Perché è importante
Il rapporto indica come ripesare il ritorno osservato sotto la policy di comportamento affinché diventi una stima non distorta di quale sarebbe stato il ritorno sotto la policy target:
In altre parole, anche se i dati sono stati raccolti utilizzando , possiamo comunque stimare i ritorni attesi sotto — a condizione che assegni una probabilità diversa da zero a ogni azione che potrebbe intraprendere (ipotesi di copertura).
Considerazioni Pratiche
Varianza del Campionamento d'Importanza
L'integrazione del campionamento d'importanza è concettualmente semplice. Si modifica la funzione di valore d'azione stimata pesando ogni ritorno osservato con il corrispondente rapporto di campionamento d'importanza. La formulazione più semplice è la seguente:
dove:
- è il rapporto di campionamento d'importanza per la -esima traiettoria a partire da ;
- è il ritorno da quella traiettoria;
- è il numero di volte in cui è stato visitato.
Questo è noto come campionamento d'importanza ordinario. Fornisce una stima non distorta di , ma può soffrire di varianza molto elevata, specialmente quando le politiche di comportamento e target differiscono significativamente.
Per ridurre il problema della varianza, si può utilizzare un'alternativa più stabile: il campionamento d'importanza pesato. Questo metodo normalizza i pesi d'importanza, riducendo l'impatto dei rapporti elevati e portando a un apprendimento più stabile:
In questa versione il numeratore è la stessa somma pesata dei ritorni, ma il denominatore è ora la somma dei pesi d'importanza, invece di un semplice conteggio.
Questa stima risulta distorta, ma il bias diminuisce all'aumentare dei campioni raccolti. In pratica, il campionamento d'importanza pesato è preferito grazie alla sua varianza significativamente inferiore e alla maggiore stabilità numerica.
Politiche
Come nel caso on-policy, utilizziamo politiche -greedy sia per la politica target sia per la politica di comportamento .
A prima vista, sembra naturale rendere la politica target completamente greedy — dopotutto, il nostro obiettivo finale è una politica greedy. Tuttavia, in pratica, questo causa un problema principale: se in qualsiasi passo per l'azione effettivamente eseguita dalla politica di comportamento, il rapporto di campionamento dell'importanza diventa zero e la parte rimanente dell'episodio viene effettivamente scartata.
Utilizzando un piccolo (ad esempio, ) nella politica target, garantiamo che per ogni azione, quindi non si annulla mai a zero durante l'episodio. Una volta terminato l'addestramento, è banale convertire la politica ‑greedy appresa in una politica strettamente greedy. Come nell'apprendimento on-policy, si dovrebbe utilizzare un decrescente nella politica di comportamento, ma questa volta principalmente per stabilità numerica, poiché può comunque annullarsi a zero durante l'episodio, a causa di come i numeri sono rappresentati nei computer.
Pseudocodice
Grazie per i tuoi commenti!