Impara Controllo Monte Carlo On-Policy

L'idea alla base dei metodi on-policy è intuitiva: un agente apprende seguendo la propria politica attuale e la migliora in base agli esiti che sperimenta. Per scoprire azioni migliori ed evitare di rimanere bloccato in comportamenti subottimali, l'agente incorpora un certo grado di casualità — provando occasionalmente azioni alternative per favorire l'esplorazione.

Analogia

Immagina di trovarti in una gelateria con tre gusti disponibili: cioccolato, vaniglia e fragola. Adori il cioccolato, quindi di solito scegli quello. Ma un giorno, per curiosità, decidi di provare la fragola. Scopri che il gelato alla fragola di questa gelateria è incredibilmente buono e decidi di sceglierlo ogni volta che visiti questo posto.

Provare un nuovo gusto non era necessariamente la scelta più logica basata sull'esperienza passata, ma ti ha dato l'opportunità di scoprire qualcosa di nuovo. Questo tipo di esplorazione è al centro dei metodi on-policy.

Politiche Stocastiche

Formalmente, adottare questa idea significa sostituire le politiche deterministiche (rigide) utilizzate nella programmazione dinamica con politiche stocastiche (flessibili), indicate come $\pi(a | s)$ , dove:

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

In altre parole, ogni azione in ogni stato ha una probabilità non nulla di essere selezionata. Questo garantisce che tutte le parti dell'ambiente possano essere esplorate, aspetto essenziale quando si apprende dall'esperienza.

Politiche $\Large\varepsilon$ -greedy

Per introdurre l'esplorazione nella politica, si adotta il concetto di esplorazione $\varepsilon$ -greedy dal problema multi-armed bandit. Questo consente di definire una politica stocastica che bilancia lo sfruttamento dell'azione migliore conosciuta con l'esplorazione di alternative:

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{se } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{altrimenti} \end{dcases}

Questa politica si comporta in modo greedy la maggior parte delle volte — scegliendo l'azione con il valore stimato più alto — ma con probabilità $\varepsilon$ seleziona un'azione casuale, garantendo che tutte le azioni abbiano una probabilità diversa da zero di essere scelte (inclusa nuovamente quella greedy, tramite campionamento uniforme).

A prima vista, questo approccio può sembrare problematico: poiché la politica non diventa mai completamente greedy, non convergerà mai esattamente alla politica ottimale. Pertanto, non soddisfa rigorosamente le condizioni per la GPI se si richiede l'ottimalità esatta nel limite.

Tuttavia, la GPI non richiede che la politica diventi ottimale immediatamente — richiede solo che ogni politica migliori (o rimanga invariata) rispetto alla precedente, avvicinandosi progressivamente all'ottimalità. La politica $\varepsilon$ -greedy soddisfa questa condizione: migliora la politica in media e garantisce un'esplorazione continua per supportare stime migliori.

Per affrontare il problema della convergenza verso la politica veramente ottimale, è possibile ridurre gradualmente $\varepsilon$ nel tempo. Questa strategia consente alla politica di diventare progressivamente più greedy man mano che l'apprendimento procede. Nelle fasi iniziali, l'esplorazione aiuta a raccogliere esperienze diversificate, mentre nelle fasi successive l'agente sfrutta la conoscenza acquisita. Con un $\varepsilon$ che decresce correttamente, il metodo converge a una politica ottimale nel limite.

Pseudocodice

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 5

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods?

How does the ε-greedy policy work in practice?

Why is it important to reduce ε over time?

Scorri per mostrare il menu

Analogia

Politiche Stocastiche

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Politiche $\Large\varepsilon$ -greedy

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{se } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{altrimenti} \end{dcases}

Pseudocodice

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 5

Controllo Monte Carlo On-Policy

Analogia

Politiche Stocastiche

Politiche ε\Large\varepsilonε-greedy

Pseudocodice

Controllo Monte Carlo On-Policy

Analogia

Politiche Stocastiche

Politiche ε\Large\varepsilonε-greedy

Pseudocodice

Politiche $\Large\varepsilon$ -greedy

Politiche $\Large\varepsilon$ -greedy