Impara Implementazioni Incrementali

Memorizzare ogni ritorno per ciascuna coppia stato-azione può rapidamente esaurire la memoria e aumentare significativamente il tempo di calcolo — soprattutto in ambienti di grandi dimensioni. Questa limitazione interessa sia gli algoritmi di controllo Monte Carlo on-policy che off-policy. Per affrontare questo problema, si adottano strategie di calcolo incrementale, simili a quelle utilizzate negli algoritmi multi-armed bandit. Questi metodi consentono di aggiornare le stime dei valori in tempo reale, senza dover conservare l'intera cronologia dei ritorni.

Controllo Monte Carlo On-Policy

Per il metodo on-policy, la strategia di aggiornamento è simile a quella utilizzata negli algoritmi MAB:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

dove $\displaystyle \alpha = \frac{1}{N(s, a)}$ per la stima della media. Gli unici valori che devono essere memorizzati sono le stime correnti dei valori d'azione $Q(s, a)$ e il numero di volte in cui la coppia stato-azione $(s, a)$ è stata visitata $N(s, a)$ .

Pseudocodice

Controllo Monte Carlo Off-Policy

Per il metodo off-policy con campionamento di importanza ordinario tutto è uguale al metodo on-policy.

Una situazione più interessante si verifica con il campionamento di importanza pesato. L'equazione appare la stessa:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

ma $\displaystyle \alpha = \frac{1}{N(s, a)}$ non può essere utilizzato perché:

Ogni ritorno è pesato da $\rho$ ;
La somma finale non è divisa per $N(s, a)$ , ma per $\sum \rho(s, a)$ .

Il valore di $\alpha$ che può effettivamente essere utilizzato in questo caso è pari a $\displaystyle \frac{W}{C(s,a)}$ dove:

$W$ è il $\rho$ per la traiettoria corrente;
$C(s, a)$ è pari a $\sum \rho(s, a)$ .

E ogni volta che la coppia stato-azione $(s, a)$ si verifica, il $\rho$ della traiettoria corrente viene aggiunto a $C(s, a)$ :

C(s, a) \gets C(s, a) + W

Pseudocodice

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 7

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the difference between on-policy and off-policy Monte Carlo control?

How does incremental computation improve efficiency in Monte Carlo methods?

Can you clarify how the weighted importance sampling update works?

Scorri per mostrare il menu

Controllo Monte Carlo On-Policy

Per il metodo on-policy, la strategia di aggiornamento è simile a quella utilizzata negli algoritmi MAB:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

Pseudocodice

Controllo Monte Carlo Off-Policy

Per il metodo off-policy con campionamento di importanza ordinario tutto è uguale al metodo on-policy.

Una situazione più interessante si verifica con il campionamento di importanza pesato. L'equazione appare la stessa:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

ma $\displaystyle \alpha = \frac{1}{N(s, a)}$ non può essere utilizzato perché:

Ogni ritorno è pesato da $\rho$ ;
La somma finale non è divisa per $N(s, a)$ , ma per $\sum \rho(s, a)$ .

Il valore di $\alpha$ che può effettivamente essere utilizzato in questo caso è pari a $\displaystyle \frac{W}{C(s,a)}$ dove:

$W$ è il $\rho$ per la traiettoria corrente;
$C(s, a)$ è pari a $\sum \rho(s, a)$ .

E ogni volta che la coppia stato-azione $(s, a)$ si verifica, il $\rho$ della traiettoria corrente viene aggiunto a $C(s, a)$ :

C(s, a) \gets C(s, a) + W

Pseudocodice

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 7