Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Episodi e Ritorni | Teoria Fondamentale dell'RL
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Episodi e Ritorni

La durata di un compito

I compiti nell'apprendimento per rinforzo sono generalmente classificati come episodici o continui, a seconda di come il processo di apprendimento è strutturato nel tempo.

Note
Definizione

Episodio indica una sequenza completa di interazioni tra l'agente e l'ambiente, a partire da uno stato iniziale e proseguendo attraverso una serie di transizioni fino al raggiungimento di uno stato terminale.

Compiti episodici sono quelli che consistono in una sequenza finita di stati, azioni e ricompense, in cui l'interazione dell'agente con l'ambiente è suddivisa in episodi distinti.

Al contrario, i compiti continui non hanno una fine chiara per ogni ciclo di interazione. L'agente interagisce continuamente con l'ambiente senza reimpostare lo stato iniziale e il processo di apprendimento è continuo, spesso senza un punto terminale distinto.

Ritorno

Sai già che l'obiettivo principale dell'agente è massimizzare le ricompense cumulative. Sebbene la funzione di ricompensa fornisca ricompense istantanee, non tiene conto degli esiti futuri, il che può essere problematico. Un agente addestrato esclusivamente a massimizzare le ricompense immediate potrebbe trascurare i benefici a lungo termine. Per affrontare questo problema, introduciamo il concetto di ritorno.

Note
Definizione

Ritorno GG è la ricompensa totale accumulata che un agente riceve da uno stato dato in poi, che incorpora tutte le ricompense che riceverà in futuro, non solo quelle immediate.

Il ritorno rappresenta meglio quanto sia vantaggioso uno stato o un'azione nel lungo periodo. L'obiettivo dell'apprendimento per rinforzo può ora essere definito come massimizzare il ritorno.

Se TT è l'ultimo passo temporale, la formula del ritorno è la seguente:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Sconto

Sebbene il ritorno semplice sia un buon obiettivo nei compiti episodici, nei compiti continui si presenta un problema. Se il numero di passi temporali è infinito, il ritorno stesso può diventare infinito. Per gestire questa situazione, si utilizza un fattore di sconto per garantire che le ricompense future abbiano un peso minore, evitando che il ritorno diventi infinito.

Note
Definizione

Il fattore di sconto γ\gamma è un fattore moltiplicativo utilizzato per determinare il valore attuale delle ricompense future. Assume valori compresi tra 0 e 1, dove un valore vicino a 0 porta l'agente a dare priorità alle ricompense immediate, mentre un valore vicino a 1 fa sì che l'agente consideri maggiormente le ricompense future.

La ricompensa cumulativa combinata con un fattore di sconto è chiamata ricompensa scontata.

La formula per la ricompensa scontata è la seguente:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Approfondisci

Anche nei compiti episodici, l'utilizzo di un fattore di sconto offre vantaggi pratici: motiva l'agente a raggiungere il proprio obiettivo il più rapidamente possibile, portando a un comportamento più efficiente. Per questo motivo, l'applicazione dello sconto è comune anche in contesti chiaramente episodici.

question mark

Cosa rappresenta il fattore di sconto γ\gamma?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 4

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Episodi e Ritorni

La durata di un compito

I compiti nell'apprendimento per rinforzo sono generalmente classificati come episodici o continui, a seconda di come il processo di apprendimento è strutturato nel tempo.

Note
Definizione

Episodio indica una sequenza completa di interazioni tra l'agente e l'ambiente, a partire da uno stato iniziale e proseguendo attraverso una serie di transizioni fino al raggiungimento di uno stato terminale.

Compiti episodici sono quelli che consistono in una sequenza finita di stati, azioni e ricompense, in cui l'interazione dell'agente con l'ambiente è suddivisa in episodi distinti.

Al contrario, i compiti continui non hanno una fine chiara per ogni ciclo di interazione. L'agente interagisce continuamente con l'ambiente senza reimpostare lo stato iniziale e il processo di apprendimento è continuo, spesso senza un punto terminale distinto.

Ritorno

Sai già che l'obiettivo principale dell'agente è massimizzare le ricompense cumulative. Sebbene la funzione di ricompensa fornisca ricompense istantanee, non tiene conto degli esiti futuri, il che può essere problematico. Un agente addestrato esclusivamente a massimizzare le ricompense immediate potrebbe trascurare i benefici a lungo termine. Per affrontare questo problema, introduciamo il concetto di ritorno.

Note
Definizione

Ritorno GG è la ricompensa totale accumulata che un agente riceve da uno stato dato in poi, che incorpora tutte le ricompense che riceverà in futuro, non solo quelle immediate.

Il ritorno rappresenta meglio quanto sia vantaggioso uno stato o un'azione nel lungo periodo. L'obiettivo dell'apprendimento per rinforzo può ora essere definito come massimizzare il ritorno.

Se TT è l'ultimo passo temporale, la formula del ritorno è la seguente:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Sconto

Sebbene il ritorno semplice sia un buon obiettivo nei compiti episodici, nei compiti continui si presenta un problema. Se il numero di passi temporali è infinito, il ritorno stesso può diventare infinito. Per gestire questa situazione, si utilizza un fattore di sconto per garantire che le ricompense future abbiano un peso minore, evitando che il ritorno diventi infinito.

Note
Definizione

Il fattore di sconto γ\gamma è un fattore moltiplicativo utilizzato per determinare il valore attuale delle ricompense future. Assume valori compresi tra 0 e 1, dove un valore vicino a 0 porta l'agente a dare priorità alle ricompense immediate, mentre un valore vicino a 1 fa sì che l'agente consideri maggiormente le ricompense future.

La ricompensa cumulativa combinata con un fattore di sconto è chiamata ricompensa scontata.

La formula per la ricompensa scontata è la seguente:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Approfondisci

Anche nei compiti episodici, l'utilizzo di un fattore di sconto offre vantaggi pratici: motiva l'agente a raggiungere il proprio obiettivo il più rapidamente possibile, portando a un comportamento più efficiente. Per questo motivo, l'applicazione dello sconto è comune anche in contesti chiaramente episodici.

question mark

Cosa rappresenta il fattore di sconto γ\gamma?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 4
some-alt