Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Valori d'Azione | Problema del Multi-Armed Bandit
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Valori d'Azione

Il valore d'azione è un concetto fondamentale nel problema MAB. Riveste un ruolo centrale in vari algoritmi, tra cui epsilon-greedy e upper confidence bound. Lo scopo principale di un valore d'azione è fornire una stima della ricompensa attesa quando viene scelta una specifica azione. È simile a un valore stato-azione, ma è indipendente dallo stato a causa della natura senza stato del problema MAB.

Definizione di valore d'azione

Formalmente, il valore d'azione, indicato come Q(a)Q(a), rappresenta la ricompensa attesa scegliendo l'azione aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

dove:

  • RR è la ricompensa ricevuta;
  • AA è l'azione selezionata.

Poiché la distribuzione reale delle ricompense è tipicamente sconosciuta, dobbiamo stimare Q(a)Q(a) utilizzando i dati osservati.

Stima dei Valori d'Azione

Esistono diversi modi per stimare Q(a)Q(a) sulla base delle ricompense osservate. Il metodo più comune è la stima della media campionaria, che calcola la ricompensa media ottenuta selezionando l'azione aa fino al tempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

dove:

  • Qt(a)Q_t(a) è il valore stimato dell'azione aa al passo temporale tt;
  • Nt(a)N_t(a) è il numero di volte in cui l'azione aa è stata scelta fino al tempo tt;
  • RiR_i è la ricompensa ottenuta in ciascuna occasione in cui è stata eseguita l'azione aa.

Man mano che vengono raccolti più campioni, questa stima converge verso la vera ricompensa attesa Q(a)Q_*(a), assumendo che la distribuzione delle ricompense rimanga stazionaria.

Note
Definizione

Una distribuzione stazionaria è una distribuzione che non cambia nel tempo, indipendentemente dalle azioni intraprese o dalle variazioni dell'ambiente.

Regola di Aggiornamento Incrementale

Sebbene la formula sopra possa essere utilizzata per stimare i valori delle azioni, richiede di memorizzare tutte le ricompense precedenti e di ricalcolare la loro somma ad ogni passo temporale. Con gli aggiornamenti incrementali, ciò diventa superfluo. La formula per gli aggiornamenti incrementali può essere derivata come segue:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

dove, per una certa azione:

  • QkQ_k è una stima della kk-esima ricompensa, che può essere espressa come una media delle prime k1k-1 ricompense;
  • RkR_k è la vera kk-esima ricompensa.

Intuizione

Conoscendo la stima della kk-esima ricompensa, QkQ_k, e la vera kk-esima ricompensa, RkR_k, è possibile misurare l'errore come la differenza tra questi valori. Successivamente, la stima successiva può essere calcolata regolando leggermente la stima precedente nella direzione della ricompensa effettiva, per ridurre l'errore.

Questa intuizione porta a un'altra formula, che appare così:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

dove α\alpha è un parametro di passo che controlla la velocità di apprendimento. Come nella formula precedente, alfa può essere 1k\frac1k, e ciò porterà a una stima della media campionaria. In alternativa, si utilizza comunemente un α\alpha costante, poiché non richiede spazio aggiuntivo (per memorizzare quante volte un'azione è stata eseguita) e consente l'adattamento ad ambienti non stazionari dando maggiore peso alle osservazioni recenti.

Inizializzazione Ottimistica

All'inizio di un processo di addestramento, le stime dei valori d'azione possono variare significativamente, il che può portare a sfruttamento prematuro. Ciò significa che l'agente potrebbe sfruttare troppo presto le sue conoscenze iniziali, favorendo azioni subottimali basate su esperienza limitata. Per mitigare questo problema e favorire una esplorazione iniziale, una tecnica semplice ed efficace è l'inizializzazione ottimistica.

Nell'inizializzazione ottimistica, i valori d'azione vengono inizializzati a valori relativamente alti (ad esempio, Q0(a)=1Q_0(a) = 1 invece di 0). Questo approccio crea l'impressione che tutte le azioni siano inizialmente promettenti. Di conseguenza, l'agente è incentivato a esplorare ciascuna azione più volte prima di scegliere la migliore. Questa tecnica è più efficiente se utilizzata in combinazione con una dimensione del passo costante.

Note
Nota

La percentuale di azioni ottimali in questo e nei grafici successivi si riferisce alla proporzione di ambienti in cui l'azione ottimale è stata scelta in un determinato passo temporale.

Ad esempio, se ci sono 10 ambienti di test e l'azione ottimale è stata selezionata in 6 di essi al passo temporale 200, la percentuale di azioni ottimali per quel passo sarebbe 0,6. Questa metrica è utile per valutare le prestazioni perché è correlata alla massimizzazione della ricompensa, senza dipendere dai valori esatti delle ricompense.

question mark

A cosa serve la stima della media campionaria nella stima dei valori d'azione?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 2

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Valori d'Azione

Il valore d'azione è un concetto fondamentale nel problema MAB. Riveste un ruolo centrale in vari algoritmi, tra cui epsilon-greedy e upper confidence bound. Lo scopo principale di un valore d'azione è fornire una stima della ricompensa attesa quando viene scelta una specifica azione. È simile a un valore stato-azione, ma è indipendente dallo stato a causa della natura senza stato del problema MAB.

Definizione di valore d'azione

Formalmente, il valore d'azione, indicato come Q(a)Q(a), rappresenta la ricompensa attesa scegliendo l'azione aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

dove:

  • RR è la ricompensa ricevuta;
  • AA è l'azione selezionata.

Poiché la distribuzione reale delle ricompense è tipicamente sconosciuta, dobbiamo stimare Q(a)Q(a) utilizzando i dati osservati.

Stima dei Valori d'Azione

Esistono diversi modi per stimare Q(a)Q(a) sulla base delle ricompense osservate. Il metodo più comune è la stima della media campionaria, che calcola la ricompensa media ottenuta selezionando l'azione aa fino al tempo tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

dove:

  • Qt(a)Q_t(a) è il valore stimato dell'azione aa al passo temporale tt;
  • Nt(a)N_t(a) è il numero di volte in cui l'azione aa è stata scelta fino al tempo tt;
  • RiR_i è la ricompensa ottenuta in ciascuna occasione in cui è stata eseguita l'azione aa.

Man mano che vengono raccolti più campioni, questa stima converge verso la vera ricompensa attesa Q(a)Q_*(a), assumendo che la distribuzione delle ricompense rimanga stazionaria.

Note
Definizione

Una distribuzione stazionaria è una distribuzione che non cambia nel tempo, indipendentemente dalle azioni intraprese o dalle variazioni dell'ambiente.

Regola di Aggiornamento Incrementale

Sebbene la formula sopra possa essere utilizzata per stimare i valori delle azioni, richiede di memorizzare tutte le ricompense precedenti e di ricalcolare la loro somma ad ogni passo temporale. Con gli aggiornamenti incrementali, ciò diventa superfluo. La formula per gli aggiornamenti incrementali può essere derivata come segue:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

dove, per una certa azione:

  • QkQ_k è una stima della kk-esima ricompensa, che può essere espressa come una media delle prime k1k-1 ricompense;
  • RkR_k è la vera kk-esima ricompensa.

Intuizione

Conoscendo la stima della kk-esima ricompensa, QkQ_k, e la vera kk-esima ricompensa, RkR_k, è possibile misurare l'errore come la differenza tra questi valori. Successivamente, la stima successiva può essere calcolata regolando leggermente la stima precedente nella direzione della ricompensa effettiva, per ridurre l'errore.

Questa intuizione porta a un'altra formula, che appare così:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

dove α\alpha è un parametro di passo che controlla la velocità di apprendimento. Come nella formula precedente, alfa può essere 1k\frac1k, e ciò porterà a una stima della media campionaria. In alternativa, si utilizza comunemente un α\alpha costante, poiché non richiede spazio aggiuntivo (per memorizzare quante volte un'azione è stata eseguita) e consente l'adattamento ad ambienti non stazionari dando maggiore peso alle osservazioni recenti.

Inizializzazione Ottimistica

All'inizio di un processo di addestramento, le stime dei valori d'azione possono variare significativamente, il che può portare a sfruttamento prematuro. Ciò significa che l'agente potrebbe sfruttare troppo presto le sue conoscenze iniziali, favorendo azioni subottimali basate su esperienza limitata. Per mitigare questo problema e favorire una esplorazione iniziale, una tecnica semplice ed efficace è l'inizializzazione ottimistica.

Nell'inizializzazione ottimistica, i valori d'azione vengono inizializzati a valori relativamente alti (ad esempio, Q0(a)=1Q_0(a) = 1 invece di 0). Questo approccio crea l'impressione che tutte le azioni siano inizialmente promettenti. Di conseguenza, l'agente è incentivato a esplorare ciascuna azione più volte prima di scegliere la migliore. Questa tecnica è più efficiente se utilizzata in combinazione con una dimensione del passo costante.

Note
Nota

La percentuale di azioni ottimali in questo e nei grafici successivi si riferisce alla proporzione di ambienti in cui l'azione ottimale è stata scelta in un determinato passo temporale.

Ad esempio, se ci sono 10 ambienti di test e l'azione ottimale è stata selezionata in 6 di essi al passo temporale 200, la percentuale di azioni ottimali per quel passo sarebbe 0,6. Questa metrica è utile per valutare le prestazioni perché è correlata alla massimizzazione della ricompensa, senza dipendere dai valori esatti delle ricompense.

question mark

A cosa serve la stima della media campionaria nella stima dei valori d'azione?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 2
some-alt