Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Iterazione del Valore | Programmazione Dinamica
Introduzione All'apprendimento per Rinforzo

bookIterazione del Valore

Sebbene l'iterazione delle politiche sia un approccio efficace per risolvere gli MDP, presenta un notevole svantaggio: ogni iterazione comporta una fase separata di valutazione della politica. Quando la valutazione della politica viene eseguita in modo iterativo, sono necessari più passaggi su tutto lo spazio degli stati, causando un notevole sovraccarico computazionale e tempi di calcolo più lunghi.

Una valida alternativa è l'iterazione dei valori, un metodo che unisce la valutazione della politica e il miglioramento della politica in un unico passaggio. Questo metodo aggiorna direttamente la funzione di valore fino a quando non converge verso la funzione di valore ottimale. Una volta raggiunta la convergenza, la politica ottimale può essere derivata direttamente da questa funzione di valore ottimale.

Come funziona?

L'iterazione dei valori funziona eseguendo un solo backup durante la valutazione della politica, prima di effettuare il miglioramento della politica. Questo porta alla seguente formula di aggiornamento:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Trasformando l'equazione di optimalità di Bellman in una regola di aggiornamento, la valutazione della politica e il miglioramento della politica vengono uniti in un unico passaggio.

Pseudocodice

question mark

In base al pseudocodice, quando si interrompe l'iterazione del valore?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 8

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the steps in the value iteration pseudocode?

What is the difference between value iteration and policy iteration?

How do you know when value iteration has converged?

Awesome!

Completion rate improved to 2.7

bookIterazione del Valore

Scorri per mostrare il menu

Sebbene l'iterazione delle politiche sia un approccio efficace per risolvere gli MDP, presenta un notevole svantaggio: ogni iterazione comporta una fase separata di valutazione della politica. Quando la valutazione della politica viene eseguita in modo iterativo, sono necessari più passaggi su tutto lo spazio degli stati, causando un notevole sovraccarico computazionale e tempi di calcolo più lunghi.

Una valida alternativa è l'iterazione dei valori, un metodo che unisce la valutazione della politica e il miglioramento della politica in un unico passaggio. Questo metodo aggiorna direttamente la funzione di valore fino a quando non converge verso la funzione di valore ottimale. Una volta raggiunta la convergenza, la politica ottimale può essere derivata direttamente da questa funzione di valore ottimale.

Come funziona?

L'iterazione dei valori funziona eseguendo un solo backup durante la valutazione della politica, prima di effettuare il miglioramento della politica. Questo porta alla seguente formula di aggiornamento:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Trasformando l'equazione di optimalità di Bellman in una regola di aggiornamento, la valutazione della politica e il miglioramento della politica vengono uniti in un unico passaggio.

Pseudocodice

question mark

In base al pseudocodice, quando si interrompe l'iterazione del valore?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 8
some-alt