Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Iterazione del Valore | Programmazione Dinamica
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Iterazione del Valore

Sebbene l'iterazione di policy sia un approccio efficace per risolvere gli MDP, presenta un notevole svantaggio: ogni iterazione comporta una fase separata di valutazione della policy. Quando la valutazione della policy viene eseguita in modo iterativo, sono necessari più passaggi sull'intero spazio degli stati, causando un notevole sovraccarico computazionale e tempi di calcolo più lunghi.

Una valida alternativa è la value iteration, un metodo che unisce la valutazione della policy e il miglioramento della policy in un unico passaggio. Questo metodo aggiorna direttamente la funzione di valore fino a quando non converge alla funzione di valore ottimale. Una volta raggiunta la convergenza, la policy ottimale può essere derivata direttamente da questa funzione di valore ottimale.

Come funziona?

Value iteration funziona eseguendo un solo backup durante la valutazione della policy, prima di effettuare il miglioramento della policy. Questo porta alla seguente formula di aggiornamento:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Trasformando l'equazione di ottimalità di Bellman in una regola di aggiornamento, la valutazione della policy e il miglioramento della policy vengono unificati in un unico passaggio.

Pseudocodice

question mark

In base al pseudocodice, quando si interrompe l'iterazione del valore?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 8

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Iterazione del Valore

Sebbene l'iterazione di policy sia un approccio efficace per risolvere gli MDP, presenta un notevole svantaggio: ogni iterazione comporta una fase separata di valutazione della policy. Quando la valutazione della policy viene eseguita in modo iterativo, sono necessari più passaggi sull'intero spazio degli stati, causando un notevole sovraccarico computazionale e tempi di calcolo più lunghi.

Una valida alternativa è la value iteration, un metodo che unisce la valutazione della policy e il miglioramento della policy in un unico passaggio. Questo metodo aggiorna direttamente la funzione di valore fino a quando non converge alla funzione di valore ottimale. Una volta raggiunta la convergenza, la policy ottimale può essere derivata direttamente da questa funzione di valore ottimale.

Come funziona?

Value iteration funziona eseguendo un solo backup durante la valutazione della policy, prima di effettuare il miglioramento della policy. Questo porta alla seguente formula di aggiornamento:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Trasformando l'equazione di ottimalità di Bellman in una regola di aggiornamento, la valutazione della policy e il miglioramento della policy vengono unificati in un unico passaggio.

Pseudocodice

question mark

In base al pseudocodice, quando si interrompe l'iterazione del valore?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 8
some-alt