Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

L'idea alla base della **policy iteration** è semplice:
1. Scegliere un'$$\pi$$ e un $$v$$ iniziali;
2. Utilizzare la valutazione della policy per aggiornare $$v$$ finché non è coerente con $$\pi$$;
3. Utilizzare il miglioramento della policy per aggiornare $$\pi$$ finché non è greedy rispetto a $$v$$;
4. Ripetere i passi 2-3 fino alla convergenza.

In questo metodo, **non ci sono aggiornamenti parziali**:
- Durante la **valutazione della policy**, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
- Durante il **miglioramento della policy**, la policy viene resa greedy rispetto alla funzione di valore.

In base al pseudocodice, quale condizione fa terminare il ciclo esterno della policy iteration?

Il Reinforcement Learning (RL) è un ramo avanzato del machine learning focalizzato sull’addestramento di agenti intelligenti tramite l’interazione con l’ambiente. In questo corso apprenderai come gli agenti scoprono gradualmente comportamenti efficaci attraverso il metodo del tentativo ed errore. A partire da concetti fondamentali come i processi decisionali di Markov e i multi-armed bandit, affronterai la programmazione dinamica, i metodi Monte Carlo e l’apprendimento a differenza temporale.

Scopri come addestrare agenti a prendere decisioni ottimali tramite tentativi ed errori. Esplora i principi fondamentali della teoria dell'apprendimento per rinforzo. Acquisisci esperienza pratica nell'impostazione e nell'esecuzione di un ambiente Gymnasium.

Apprendimento del compromesso esplorazione-sfruttamento tramite il problema del multi-armed bandit. Implementazione della stima del valore d'azione, metodi ε-greedy, upper confidence bound e gradient-bandit. Valutazione delle prestazioni degli algoritmi su compiti simulati di massimizzazione della ricompensa.

Padronanza della programmazione dinamica per RL basato su modello. Scoperta dell'utilizzo delle equazioni di Bellman per valutare e migliorare le politiche. Implementazione degli algoritmi di iterazione delle politiche e dei valori. Esplorazione dell'iterazione generalizzata delle politiche come fondamento teorico per i metodi senza modello.

Padronanza dei metodi Monte Carlo per RL senza modello.
Stima delle funzioni di valore e derivazione di politiche ottimali da episodi completi.
Implementazione di algoritmi di controllo Monte Carlo on-policy e off-policy.
Esplorazione di strategie di esplorazione per ottimizzare l'apprendimento senza modello.

Apprendimento a differenza temporale per RL senza modello. Stima delle funzioni di valore da episodi parziali utilizzando aggiornamenti TD(0). Implementazione degli algoritmi SARSA on-policy e Q-Learning off-policy. Analisi della combinazione tra metodi Monte Carlo e apprendimento TD in n-step TD e TD(λ).

Iterazione delle Politiche

Pseudocodice

Iterazione delle Politiche

Pseudocodice