Implementazioni Incrementali
Memorizzare ogni ritorno per ciascuna coppia stato-azione può rapidamente esaurire la memoria e aumentare significativamente il tempo di calcolo — soprattutto in ambienti di grandi dimensioni. Questa limitazione interessa sia gli algoritmi di controllo Monte Carlo on-policy che off-policy. Per affrontare questo problema, si adottano strategie di calcolo incrementale, simili a quelle utilizzate negli algoritmi multi-armed bandit. Questi metodi permettono di aggiornare le stime dei valori in tempo reale, senza conservare l'intera cronologia dei ritorni.
Controllo Monte Carlo On-Policy
Per il metodo on-policy, la strategia di aggiornamento è simile a quella utilizzata negli algoritmi MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))dove α=N(s,a)1 per la stima della media. Gli unici valori che devono essere memorizzati sono le stime correnti dei valori d'azione Q(s,a) e il numero di volte in cui la coppia stato-azione (s,a) è stata visitata N(s,a).
Pseudocodice
Controllo Monte Carlo Off-Policy
Per il metodo off-policy con campionamento di importanza ordinario tutto è uguale al metodo on-policy.
Una situazione più interessante si verifica con il campionamento di importanza pesato. L'equazione appare la stessa:
Q(s,a)←Q(s,a)+α(G−Q(s,a))ma α=N(s,a)1 non può essere utilizzato perché:
- Ogni ritorno è pesato da ρ;
- La somma finale non è divisa per N(s,a), ma per ∑ρ(s,a).
Il valore di α che può effettivamente essere utilizzato in questo caso è pari a C(s,a)W dove:
- W è il ρ per la traiettoria corrente;
- C(s,a) è pari a ∑ρ(s,a).
E ogni volta che la coppia stato-azione (s,a) si verifica, il ρ della traiettoria corrente viene aggiunto a C(s,a):
C(s,a)←C(s,a)+WPseudocodice
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
Implementazioni Incrementali
Scorri per mostrare il menu
Memorizzare ogni ritorno per ciascuna coppia stato-azione può rapidamente esaurire la memoria e aumentare significativamente il tempo di calcolo — soprattutto in ambienti di grandi dimensioni. Questa limitazione interessa sia gli algoritmi di controllo Monte Carlo on-policy che off-policy. Per affrontare questo problema, si adottano strategie di calcolo incrementale, simili a quelle utilizzate negli algoritmi multi-armed bandit. Questi metodi permettono di aggiornare le stime dei valori in tempo reale, senza conservare l'intera cronologia dei ritorni.
Controllo Monte Carlo On-Policy
Per il metodo on-policy, la strategia di aggiornamento è simile a quella utilizzata negli algoritmi MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))dove α=N(s,a)1 per la stima della media. Gli unici valori che devono essere memorizzati sono le stime correnti dei valori d'azione Q(s,a) e il numero di volte in cui la coppia stato-azione (s,a) è stata visitata N(s,a).
Pseudocodice
Controllo Monte Carlo Off-Policy
Per il metodo off-policy con campionamento di importanza ordinario tutto è uguale al metodo on-policy.
Una situazione più interessante si verifica con il campionamento di importanza pesato. L'equazione appare la stessa:
Q(s,a)←Q(s,a)+α(G−Q(s,a))ma α=N(s,a)1 non può essere utilizzato perché:
- Ogni ritorno è pesato da ρ;
- La somma finale non è divisa per N(s,a), ma per ∑ρ(s,a).
Il valore di α che può effettivamente essere utilizzato in questo caso è pari a C(s,a)W dove:
- W è il ρ per la traiettoria corrente;
- C(s,a) è pari a ∑ρ(s,a).
E ogni volta che la coppia stato-azione (s,a) si verifica, il ρ della traiettoria corrente viene aggiunto a C(s,a):
C(s,a)←C(s,a)+WPseudocodice
Grazie per i tuoi commenti!