Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Implementazioni Incrementali
Memorizzare ogni ritorno per ciascuna coppia stato-azione può rapidamente esaurire la memoria e aumentare significativamente il tempo di calcolo — soprattutto in ambienti di grandi dimensioni. Questa limitazione interessa sia gli algoritmi di controllo Monte Carlo on-policy che off-policy. Per affrontare questo problema, si adottano strategie di calcolo incrementale, simili a quelle utilizzate negli algoritmi multi-armed bandit. Questi metodi permettono di aggiornare le stime dei valori in tempo reale, senza conservare l'intera cronologia dei ritorni.
Controllo Monte Carlo On-Policy
Per il metodo on-policy, la strategia di aggiornamento è simile a quella utilizzata negli algoritmi MAB:
dove per la stima della media. Gli unici valori che devono essere memorizzati sono le stime correnti dei valori d'azione e il numero di volte in cui la coppia stato-azione è stata visitata .
Pseudocodice
Controllo Monte Carlo Off-Policy
Per il metodo off-policy con campionamento di importanza ordinario tutto è uguale al metodo on-policy.
Una situazione più interessante si verifica con il campionamento di importanza pesato. L'equazione appare la stessa:
ma non può essere utilizzato perché:
- Ogni ritorno è pesato da ;
- La somma finale non è divisa per , ma per .
Il valore di che può effettivamente essere utilizzato in questo caso è pari a dove:
- è il per la traiettoria corrente;
- è pari a .
E ogni volta che la coppia stato-azione si verifica, il della traiettoria corrente viene aggiunto a :
Pseudocodice
Grazie per i tuoi commenti!