Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Iterazione Generalizzata delle Politiche | Programmazione Dinamica
Introduzione al Reinforcement Learning

bookIterazione Generalizzata delle Politiche

Nei capitoli precedenti, hai appreso la valutazione della politica e il miglioramento della politica. Questi processi si completano a vicenda e si combinano naturalmente in un quadro noto come generalized policy iteration.

Note
Definizione

Generalized policy iteration (GPI) è un quadro in cui la valutazione della politica e il miglioramento della politica interagiscono iterativamente con l'obiettivo comune di determinare una politica ottimale.

La maggior parte dei metodi di reinforcement learning può essere descritta all'interno del quadro della GPI. Le principali differenze tra questi metodi derivano dalle implementazioni specifiche della valutazione della politica e del miglioramento della politica, nonché dalla natura delle loro interazioni.

Interazione tra due processi

La valutazione della policy e il miglioramento della policy possono essere considerati sia processi cooperativi che competitivi, a seconda della prospettiva:

  • Cooperativi: entrambi i processi lavorano verso un obiettivo comune—trovare la policy ottimale e la funzione di valore ottimale. La valutazione della policy stima la funzione di valore per una determinata policy, mentre il miglioramento della policy affina la policy sulla base di queste stime;
  • Competitivi: ogni processo ha obiettivi contrastanti. La valutazione della policy mira a stimare accuratamente la funzione di valore per la policy corrente, spesso facendo sì che la policy non sia più greedy. Al contrario, il miglioramento della policy adatta la policy affinché sia greedy rispetto alle stime attuali della funzione di valore, tipicamente rendendo tali stime non corrette. Questa continua alternanza prosegue fino a quando sia la policy che la funzione di valore convergono alle loro forme ottimali.

Riepilogo

L'iterazione generalizzata delle politiche è un quadro utile per comprendere come i diversi metodi di apprendimento per rinforzo affrontano la risoluzione degli MDP. Nei prossimi capitoli, esplorerai come queste idee possano essere applicate per creare due metodi fondamentali di programmazione dinamica: iterazione delle politiche e iterazione dei valori.

question mark

Seleziona i due processi che lavorano insieme nel quadro dell'iterazione generalizzata delle politiche

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 6

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Awesome!

Completion rate improved to 2.7

bookIterazione Generalizzata delle Politiche

Scorri per mostrare il menu

Nei capitoli precedenti, hai appreso la valutazione della politica e il miglioramento della politica. Questi processi si completano a vicenda e si combinano naturalmente in un quadro noto come generalized policy iteration.

Note
Definizione

Generalized policy iteration (GPI) è un quadro in cui la valutazione della politica e il miglioramento della politica interagiscono iterativamente con l'obiettivo comune di determinare una politica ottimale.

La maggior parte dei metodi di reinforcement learning può essere descritta all'interno del quadro della GPI. Le principali differenze tra questi metodi derivano dalle implementazioni specifiche della valutazione della politica e del miglioramento della politica, nonché dalla natura delle loro interazioni.

Interazione tra due processi

La valutazione della policy e il miglioramento della policy possono essere considerati sia processi cooperativi che competitivi, a seconda della prospettiva:

  • Cooperativi: entrambi i processi lavorano verso un obiettivo comune—trovare la policy ottimale e la funzione di valore ottimale. La valutazione della policy stima la funzione di valore per una determinata policy, mentre il miglioramento della policy affina la policy sulla base di queste stime;
  • Competitivi: ogni processo ha obiettivi contrastanti. La valutazione della policy mira a stimare accuratamente la funzione di valore per la policy corrente, spesso facendo sì che la policy non sia più greedy. Al contrario, il miglioramento della policy adatta la policy affinché sia greedy rispetto alle stime attuali della funzione di valore, tipicamente rendendo tali stime non corrette. Questa continua alternanza prosegue fino a quando sia la policy che la funzione di valore convergono alle loro forme ottimali.

Riepilogo

L'iterazione generalizzata delle politiche è un quadro utile per comprendere come i diversi metodi di apprendimento per rinforzo affrontano la risoluzione degli MDP. Nei prossimi capitoli, esplorerai come queste idee possano essere applicate per creare due metodi fondamentali di programmazione dinamica: iterazione delle politiche e iterazione dei valori.

question mark

Seleziona i due processi che lavorano insieme nel quadro dell'iterazione generalizzata delle politiche

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 6
some-alt