Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Approcci di Esplorazione | Metodi Monte Carlo
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Approcci di Esplorazione

L'assunzione degli exploring starts è utile per garantire che tutti gli stati (coppie stato-azione) vengano visitati nel tempo. Tuttavia, nella maggior parte dei compiti reali, presenta un notevole svantaggio: richiede un modello per inizializzare l'agente in stati arbitrari.

In rari casi — quando l'ambiente inizia naturalmente gli episodi da stati casuali che coprono l'intero spazio degli stati — gli exploring starts possono essere applicati senza problemi. Più comunemente, però, i compiti hanno un insieme fisso o limitato di stati iniziali, rendendo tale randomizzazione impossibile senza un modello parziale. Questo modello dovrebbe almeno essere in grado di simulare un passo dell'ambiente da qualsiasi stato. Sebbene ciò sia comunque meno impegnativo rispetto alla necessità di un modello completo, spesso risulta poco pratico.

Approcci alternativi all'esplorazione

Se non è possibile iniziare da uno stato casuale (coppia stato-azione), l'alternativa è garantire che ogni azione abbia una probabilità diversa da zero di essere selezionata in ogni stato. Questo assicura che, nel tempo, l'agente esplori tutte le parti raggiungibili dello spazio degli stati. Se uno stato può essere raggiunto tramite una sequenza valida di azioni, prima o poi lo sarà; se invece non può essere raggiunto affatto secondo la dinamica dell'ambiente, allora è irrilevante per il processo di apprendimento.

Questa idea porta all'uso di policy stocastiche, in cui l'agente non sceglie sempre l'azione migliore conosciuta, ma seleziona le azioni con un certo grado di casualità. Una strategia comune per questo è la nota ε\varepsilon-greedy policy, che sceglie l'azione greedy la maggior parte delle volte, ma con probabilità ε\varepsilon seleziona invece un'azione casuale. Questo garantisce un'esplorazione continua pur privilegiando le azioni di valore elevato.

A questo punto, è anche utile distinguere tra due principali classi di metodi:

  • I metodi on-policy valutano e migliorano la stessa policy utilizzata per generare i dati;
  • I metodi off-policy valutano e migliorano una policy, e generano i dati con un'altra policy.

1. Qual è il principale problema dell'assunzione degli exploring starts?

2. Qual è la differenza tra metodi on-policy e off-policy nell'apprendimento per rinforzo?

question mark

Qual è il principale problema dell'assunzione degli exploring starts?

Select the correct answer

question mark

Qual è la differenza tra metodi on-policy e off-policy nell'apprendimento per rinforzo?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 4

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Approcci di Esplorazione

L'assunzione degli exploring starts è utile per garantire che tutti gli stati (coppie stato-azione) vengano visitati nel tempo. Tuttavia, nella maggior parte dei compiti reali, presenta un notevole svantaggio: richiede un modello per inizializzare l'agente in stati arbitrari.

In rari casi — quando l'ambiente inizia naturalmente gli episodi da stati casuali che coprono l'intero spazio degli stati — gli exploring starts possono essere applicati senza problemi. Più comunemente, però, i compiti hanno un insieme fisso o limitato di stati iniziali, rendendo tale randomizzazione impossibile senza un modello parziale. Questo modello dovrebbe almeno essere in grado di simulare un passo dell'ambiente da qualsiasi stato. Sebbene ciò sia comunque meno impegnativo rispetto alla necessità di un modello completo, spesso risulta poco pratico.

Approcci alternativi all'esplorazione

Se non è possibile iniziare da uno stato casuale (coppia stato-azione), l'alternativa è garantire che ogni azione abbia una probabilità diversa da zero di essere selezionata in ogni stato. Questo assicura che, nel tempo, l'agente esplori tutte le parti raggiungibili dello spazio degli stati. Se uno stato può essere raggiunto tramite una sequenza valida di azioni, prima o poi lo sarà; se invece non può essere raggiunto affatto secondo la dinamica dell'ambiente, allora è irrilevante per il processo di apprendimento.

Questa idea porta all'uso di policy stocastiche, in cui l'agente non sceglie sempre l'azione migliore conosciuta, ma seleziona le azioni con un certo grado di casualità. Una strategia comune per questo è la nota ε\varepsilon-greedy policy, che sceglie l'azione greedy la maggior parte delle volte, ma con probabilità ε\varepsilon seleziona invece un'azione casuale. Questo garantisce un'esplorazione continua pur privilegiando le azioni di valore elevato.

A questo punto, è anche utile distinguere tra due principali classi di metodi:

  • I metodi on-policy valutano e migliorano la stessa policy utilizzata per generare i dati;
  • I metodi off-policy valutano e migliorano una policy, e generano i dati con un'altra policy.

1. Qual è il principale problema dell'assunzione degli exploring starts?

2. Qual è la differenza tra metodi on-policy e off-policy nell'apprendimento per rinforzo?

question mark

Qual è il principale problema dell'assunzione degli exploring starts?

Select the correct answer

question mark

Qual è la differenza tra metodi on-policy e off-policy nell'apprendimento per rinforzo?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 4
some-alt