Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Controllo Monte Carlo On-Policy | Metodi Monte Carlo
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Controllo Monte Carlo On-Policy

L'idea alla base dei metodi on-policy è intuitiva: un agente apprende seguendo la propria politica attuale e la migliora in base agli esiti che sperimenta. Per scoprire azioni migliori ed evitare di rimanere bloccato in comportamenti subottimali, l'agente incorpora un certo grado di casualità — provando occasionalmente azioni alternative per favorire l'esplorazione.

Analogia

Immagina di trovarti in una gelateria dove sono disponibili tre gusti: cioccolato, vaniglia e fragola. Ami il cioccolato, quindi di solito scegli quello. Ma un giorno, per curiosità, decidi di provare la fragola. Scopri che il gelato alla fragola di questa gelateria è incredibilmente buono e decidi di sceglierlo ogni volta che torni.

Provare un nuovo gusto non era necessariamente la scelta più logica basata sull'esperienza passata, ma ti ha dato l'opportunità di scoprire qualcosa di nuovo. Questo tipo di esplorazione è al centro dei metodi on-policy.

Politiche Stocastiche

Formalmente, adottare questa idea significa sostituire le politiche deterministiche (rigide) utilizzate nella programmazione dinamica con politiche stocastiche (flessibili), indicate come π(as)\pi(a | s), dove:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

In altre parole, ogni azione in ogni stato ha una probabilità diversa da zero di essere selezionata. Questo garantisce che tutte le parti dell'ambiente possano essere esplorate, aspetto essenziale quando si apprende dall'esperienza.

Politiche ε\Large\varepsilon-greedy

Per incorporare l'esplorazione nella politica, adottiamo il concetto di esplorazione ε\varepsilon-greedy dal problema multi-armed bandit. Questo ci permette di definire una politica stocastica che bilancia lo sfruttamento dell'azione migliore conosciuta con l'esplorazione di alternative:

π(as){1ε+εA(s)se a=arg maxaqπ(s,a)εA(s)altrimenti\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{se } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{altrimenti} \end{dcases}

Questa politica si comporta in modo greedy la maggior parte delle volte — scegliendo l'azione con il valore stimato più alto — ma con probabilità ε\varepsilon seleziona un'azione casuale, garantendo che tutte le azioni abbiano una probabilità diversa da zero di essere scelte (inclusa nuovamente quella greedy, tramite campionamento uniforme).

A prima vista, questo approccio può sembrare problematico: poiché la politica non diventa mai puramente greedy, non convergerà mai esattamente alla politica ottimale. Pertanto, non soddisfa rigorosamente le condizioni per la GPI se ci si aspetta l'ottimalità esatta nel limite.

Tuttavia, la GPI non richiede che la politica diventi ottimale immediatamente — richiede solo che ogni politica migliori (o rimanga invariata) rispetto alla precedente, avvicinandosi progressivamente all'ottimalità. La politica ε\varepsilon-greedy soddisfa questa condizione: migliora la politica in media e garantisce un'esplorazione continua per supportare stime migliori.

Per affrontare il problema della convergenza verso la politica veramente ottimale, è possibile ridurre gradualmente ε\varepsilon nel tempo. Questa strategia consente alla politica di diventare sempre più greedy man mano che l'apprendimento procede. Nelle fasi iniziali, l'esplorazione aiuta a raccogliere esperienze diversificate, mentre nelle fasi successive l'agente sfrutta la conoscenza migliorata. Con un ε\varepsilon che decresce adeguatamente, il metodo converge a una politica ottimale nel limite.

Pseudocodice

question mark

In che modo le politiche stocastiche possono aiutare nell'esplorazione?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 5

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Controllo Monte Carlo On-Policy

L'idea alla base dei metodi on-policy è intuitiva: un agente apprende seguendo la propria politica attuale e la migliora in base agli esiti che sperimenta. Per scoprire azioni migliori ed evitare di rimanere bloccato in comportamenti subottimali, l'agente incorpora un certo grado di casualità — provando occasionalmente azioni alternative per favorire l'esplorazione.

Analogia

Immagina di trovarti in una gelateria dove sono disponibili tre gusti: cioccolato, vaniglia e fragola. Ami il cioccolato, quindi di solito scegli quello. Ma un giorno, per curiosità, decidi di provare la fragola. Scopri che il gelato alla fragola di questa gelateria è incredibilmente buono e decidi di sceglierlo ogni volta che torni.

Provare un nuovo gusto non era necessariamente la scelta più logica basata sull'esperienza passata, ma ti ha dato l'opportunità di scoprire qualcosa di nuovo. Questo tipo di esplorazione è al centro dei metodi on-policy.

Politiche Stocastiche

Formalmente, adottare questa idea significa sostituire le politiche deterministiche (rigide) utilizzate nella programmazione dinamica con politiche stocastiche (flessibili), indicate come π(as)\pi(a | s), dove:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

In altre parole, ogni azione in ogni stato ha una probabilità diversa da zero di essere selezionata. Questo garantisce che tutte le parti dell'ambiente possano essere esplorate, aspetto essenziale quando si apprende dall'esperienza.

Politiche ε\Large\varepsilon-greedy

Per incorporare l'esplorazione nella politica, adottiamo il concetto di esplorazione ε\varepsilon-greedy dal problema multi-armed bandit. Questo ci permette di definire una politica stocastica che bilancia lo sfruttamento dell'azione migliore conosciuta con l'esplorazione di alternative:

π(as){1ε+εA(s)se a=arg maxaqπ(s,a)εA(s)altrimenti\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{se } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{altrimenti} \end{dcases}

Questa politica si comporta in modo greedy la maggior parte delle volte — scegliendo l'azione con il valore stimato più alto — ma con probabilità ε\varepsilon seleziona un'azione casuale, garantendo che tutte le azioni abbiano una probabilità diversa da zero di essere scelte (inclusa nuovamente quella greedy, tramite campionamento uniforme).

A prima vista, questo approccio può sembrare problematico: poiché la politica non diventa mai puramente greedy, non convergerà mai esattamente alla politica ottimale. Pertanto, non soddisfa rigorosamente le condizioni per la GPI se ci si aspetta l'ottimalità esatta nel limite.

Tuttavia, la GPI non richiede che la politica diventi ottimale immediatamente — richiede solo che ogni politica migliori (o rimanga invariata) rispetto alla precedente, avvicinandosi progressivamente all'ottimalità. La politica ε\varepsilon-greedy soddisfa questa condizione: migliora la politica in media e garantisce un'esplorazione continua per supportare stime migliori.

Per affrontare il problema della convergenza verso la politica veramente ottimale, è possibile ridurre gradualmente ε\varepsilon nel tempo. Questa strategia consente alla politica di diventare sempre più greedy man mano che l'apprendimento procede. Nelle fasi iniziali, l'esplorazione aiuta a raccogliere esperienze diversificate, mentre nelle fasi successive l'agente sfrutta la conoscenza migliorata. Con un ε\varepsilon che decresce adeguatamente, il metodo converge a una politica ottimale nel limite.

Pseudocodice

question mark

In che modo le politiche stocastiche possono aiutare nell'esplorazione?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 5
some-alt