Implementazioni Incrementali
Memorizzare ogni ritorno per ciascuna coppia stato-azione può rapidamente esaurire la memoria e aumentare significativamente il tempo di calcolo — soprattutto in ambienti di grandi dimensioni. Questa limitazione interessa sia gli algoritmi di controllo Monte Carlo on-policy che off-policy. Per affrontare questo problema, si adottano strategie di calcolo incrementale, simili a quelle utilizzate negli algoritmi multi-armed bandit. Questi metodi permettono di aggiornare le stime dei valori in tempo reale, senza conservare l'intera cronologia dei ritorni.
Controllo Monte Carlo On-Policy
Per il metodo on-policy, la strategia di aggiornamento è simile a quella utilizzata negli algoritmi MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))dove α=N(s,a)1 per la stima della media. Gli unici valori che devono essere memorizzati sono le stime correnti dei valori d'azione Q(s,a) e il numero di volte in cui la coppia stato-azione (s,a) è stata visitata N(s,a).
Pseudocodice
Controllo Monte Carlo Off-Policy
Per il metodo off-policy con campionamento di importanza ordinario tutto è uguale al metodo on-policy.
Una situazione più interessante si verifica con il campionamento di importanza pesato. L'equazione appare la stessa:
Q(s,a)←Q(s,a)+α(G−Q(s,a))ma α=N(s,a)1 non può essere utilizzato perché:
- Ogni ritorno è pesato da ρ;
- La somma finale non è divisa per N(s,a), ma per ∑ρ(s,a).
Il valore di α che può effettivamente essere utilizzato in questo caso è pari a C(s,a)W dove:
- W è il ρ per la traiettoria corrente;
- C(s,a) è pari a ∑ρ(s,a).
E ogni volta che la coppia stato-azione (s,a) si verifica, il ρ della traiettoria corrente viene aggiunto a C(s,a):
C(s,a)←C(s,a)+WPseudocodice
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain the difference between on-policy and off-policy Monte Carlo control?
How does incremental computation improve efficiency in Monte Carlo methods?
Can you clarify how the weighted importance sampling update works?
Awesome!
Completion rate improved to 2.7
Implementazioni Incrementali
Scorri per mostrare il menu
Memorizzare ogni ritorno per ciascuna coppia stato-azione può rapidamente esaurire la memoria e aumentare significativamente il tempo di calcolo — soprattutto in ambienti di grandi dimensioni. Questa limitazione interessa sia gli algoritmi di controllo Monte Carlo on-policy che off-policy. Per affrontare questo problema, si adottano strategie di calcolo incrementale, simili a quelle utilizzate negli algoritmi multi-armed bandit. Questi metodi permettono di aggiornare le stime dei valori in tempo reale, senza conservare l'intera cronologia dei ritorni.
Controllo Monte Carlo On-Policy
Per il metodo on-policy, la strategia di aggiornamento è simile a quella utilizzata negli algoritmi MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))dove α=N(s,a)1 per la stima della media. Gli unici valori che devono essere memorizzati sono le stime correnti dei valori d'azione Q(s,a) e il numero di volte in cui la coppia stato-azione (s,a) è stata visitata N(s,a).
Pseudocodice
Controllo Monte Carlo Off-Policy
Per il metodo off-policy con campionamento di importanza ordinario tutto è uguale al metodo on-policy.
Una situazione più interessante si verifica con il campionamento di importanza pesato. L'equazione appare la stessa:
Q(s,a)←Q(s,a)+α(G−Q(s,a))ma α=N(s,a)1 non può essere utilizzato perché:
- Ogni ritorno è pesato da ρ;
- La somma finale non è divisa per N(s,a), ma per ∑ρ(s,a).
Il valore di α che può effettivamente essere utilizzato in questo caso è pari a C(s,a)W dove:
- W è il ρ per la traiettoria corrente;
- C(s,a) è pari a ∑ρ(s,a).
E ogni volta che la coppia stato-azione (s,a) si verifica, il ρ della traiettoria corrente viene aggiunto a C(s,a):
C(s,a)←C(s,a)+WPseudocodice
Grazie per i tuoi commenti!