Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Iterazione delle Politiche | Programmazione Dinamica
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Iterazione delle Politiche

L'idea alla base della policy iteration è semplice:

  1. Scegliere una π\pi e un vv iniziali;
  2. Utilizzare la valutazione della policy per aggiornare vv finché non è coerente con π\pi;
  3. Utilizzare il miglioramento della policy per aggiornare π\pi finché non è greedy rispetto a vv;
  4. Ripetere i passaggi 2-3 fino alla convergenza.

In questo metodo, non ci sono aggiornamenti parziali:

  • Durante la valutazione della policy, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
  • Durante il miglioramento della policy, la policy viene resa greedy rispetto alla funzione di valore.

Pseudocodice

question mark

In base al pseudocodice, quale condizione fa terminare il ciclo esterno della policy iteration?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 7

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Iterazione delle Politiche

L'idea alla base della policy iteration è semplice:

  1. Scegliere una π\pi e un vv iniziali;
  2. Utilizzare la valutazione della policy per aggiornare vv finché non è coerente con π\pi;
  3. Utilizzare il miglioramento della policy per aggiornare π\pi finché non è greedy rispetto a vv;
  4. Ripetere i passaggi 2-3 fino alla convergenza.

In questo metodo, non ci sono aggiornamenti parziali:

  • Durante la valutazione della policy, i valori vengono aggiornati per ogni stato, finché non sono coerenti con la policy corrente;
  • Durante il miglioramento della policy, la policy viene resa greedy rispetto alla funzione di valore.

Pseudocodice

question mark

In base al pseudocodice, quale condizione fa terminare il ciclo esterno della policy iteration?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 7
some-alt