Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Valori d'Azione
Il valore d'azione è un concetto fondamentale nel problema MAB. Riveste un ruolo centrale in vari algoritmi, tra cui epsilon-greedy e upper confidence bound. Lo scopo principale di un valore d'azione è fornire una stima della ricompensa attesa quando viene scelta una specifica azione. È simile a un valore stato-azione, ma è indipendente dallo stato a causa della natura senza stato del problema MAB.
Definizione di valore d'azione
Formalmente, il valore d'azione, indicato come , rappresenta la ricompensa attesa scegliendo l'azione :
dove:
- è la ricompensa ricevuta;
- è l'azione selezionata.
Poiché la distribuzione reale delle ricompense è tipicamente sconosciuta, dobbiamo stimare utilizzando i dati osservati.
Stima dei Valori d'Azione
Esistono diversi modi per stimare sulla base delle ricompense osservate. Il metodo più comune è la stima della media campionaria, che calcola la ricompensa media ottenuta selezionando l'azione fino al tempo :
dove:
- è il valore stimato dell'azione al passo temporale ;
- è il numero di volte in cui l'azione è stata scelta fino al tempo ;
- è la ricompensa ottenuta in ciascuna occasione in cui è stata eseguita l'azione .
Man mano che vengono raccolti più campioni, questa stima converge verso la vera ricompensa attesa , assumendo che la distribuzione delle ricompense rimanga stazionaria.
Una distribuzione stazionaria è una distribuzione che non cambia nel tempo, indipendentemente dalle azioni intraprese o dalle variazioni dell'ambiente.
Regola di Aggiornamento Incrementale
Sebbene la formula sopra possa essere utilizzata per stimare i valori delle azioni, richiede di memorizzare tutte le ricompense precedenti e di ricalcolare la loro somma ad ogni passo temporale. Con gli aggiornamenti incrementali, ciò diventa superfluo. La formula per gli aggiornamenti incrementali può essere derivata come segue:
dove, per una certa azione:
- è una stima della -esima ricompensa, che può essere espressa come una media delle prime ricompense;
- è la vera -esima ricompensa.
Intuizione
Conoscendo la stima della -esima ricompensa, , e la vera -esima ricompensa, , è possibile misurare l'errore come la differenza tra questi valori. Successivamente, la stima successiva può essere calcolata regolando leggermente la stima precedente nella direzione della ricompensa effettiva, per ridurre l'errore.
Questa intuizione porta a un'altra formula, che appare così:
dove è un parametro di passo che controlla la velocità di apprendimento. Come nella formula precedente, alfa può essere , e ciò porterà a una stima della media campionaria. In alternativa, si utilizza comunemente un costante, poiché non richiede spazio aggiuntivo (per memorizzare quante volte un'azione è stata eseguita) e consente l'adattamento ad ambienti non stazionari dando maggiore peso alle osservazioni recenti.
Inizializzazione Ottimistica
All'inizio di un processo di addestramento, le stime dei valori d'azione possono variare significativamente, il che può portare a sfruttamento prematuro. Ciò significa che l'agente potrebbe sfruttare troppo presto le sue conoscenze iniziali, favorendo azioni subottimali basate su esperienza limitata. Per mitigare questo problema e favorire una esplorazione iniziale, una tecnica semplice ed efficace è l'inizializzazione ottimistica.
Nell'inizializzazione ottimistica, i valori d'azione vengono inizializzati a valori relativamente alti (ad esempio, invece di 0). Questo approccio crea l'impressione che tutte le azioni siano inizialmente promettenti. Di conseguenza, l'agente è incentivato a esplorare ciascuna azione più volte prima di scegliere la migliore. Questa tecnica è più efficiente se utilizzata in combinazione con una dimensione del passo costante.
La percentuale di azioni ottimali in questo e nei grafici successivi si riferisce alla proporzione di ambienti in cui l'azione ottimale è stata scelta in un determinato passo temporale.
Ad esempio, se ci sono 10 ambienti di test e l'azione ottimale è stata selezionata in 6 di essi al passo temporale 200, la percentuale di azioni ottimali per quel passo sarebbe 0,6. Questa metrica è utile per valutare le prestazioni perché è correlata alla massimizzazione della ricompensa, senza dipendere dai valori esatti delle ricompense.
Grazie per i tuoi commenti!