Episodi e Ritorni
La durata di un compito
I compiti nell'RL sono tipicamente classificati come episodici o continui, a seconda di come il processo di apprendimento è strutturato nel tempo.
Episodio è una sequenza completa di interazioni tra l'agente e l'ambiente, che inizia da uno stato iniziale e prosegue attraverso una serie di transizioni fino al raggiungimento di uno stato terminale.
I compiti episodici sono quelli che consistono in una sequenza finita di stati, azioni e ricompense, in cui l'interazione dell'agente con l'ambiente è suddivisa in episodi distinti.
Al contrario, i compiti continui non presentano una chiara conclusione per ogni ciclo di interazione. L'agente interagisce continuamente con l'ambiente senza reimpostare lo stato iniziale e il processo di apprendimento è continuo, spesso senza un punto terminale definito.
Ritorno
È già noto che l'obiettivo principale dell'agente è massimizzare le ricompense cumulative. Sebbene la funzione di ricompensa fornisca ricompense istantanee, non tiene conto degli esiti futuri, il che può risultare problematico. Un agente addestrato esclusivamente a massimizzare le ricompense immediate potrebbe trascurare i benefici a lungo termine. Per affrontare questa problematica, introduciamo il concetto di ritorno.
Rendimento G è la ricompensa totale accumulata che un agente riceve da uno stato dato in poi, che incorpora tutte le ricompense che riceverà in futuro, non solo quelle immediate.
Il rendimento rappresenta meglio quanto sia vantaggioso uno stato o un'azione nel lungo termine. L'obiettivo dell'apprendimento per rinforzo può ora essere definito come massimizzare il rendimento.
Se T è il passo temporale finale, la formula del rendimento è la seguente:
Gt=Rt+1+Rt+2+Rt+3+...+RTSconto
Sebbene il ritorno semplice sia un buon obiettivo nei compiti episodici, nei compiti continui si presenta un problema. Se il numero di passi temporali è infinito, il ritorno stesso può diventare infinito. Per gestire questa situazione, si utilizza un fattore di sconto per garantire che le ricompense future abbiano un peso minore, evitando che il ritorno diventi infinito.
Il fattore di sconto γ è un fattore moltiplicativo utilizzato per determinare il valore attuale delle ricompense future. Assume valori compresi tra 0 e 1, dove un valore vicino a 0 porta l'agente a dare priorità alle ricompense immediate, mentre un valore vicino a 1 fa sì che l'agente consideri maggiormente le ricompense future.
Il ritorno combinato con un fattore di sconto è chiamato ritorno scontato.
La formula per il ritorno scontato è la seguente:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Anche nei compiti episodici, l'utilizzo di un fattore di sconto offre vantaggi pratici: motiva l'agente a raggiungere il proprio obiettivo il più rapidamente possibile, portando a un comportamento più efficiente. Per questo motivo, lo sconto viene comunemente applicato anche in contesti chiaramente episodici.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
Episodi e Ritorni
Scorri per mostrare il menu
La durata di un compito
I compiti nell'RL sono tipicamente classificati come episodici o continui, a seconda di come il processo di apprendimento è strutturato nel tempo.
Episodio è una sequenza completa di interazioni tra l'agente e l'ambiente, che inizia da uno stato iniziale e prosegue attraverso una serie di transizioni fino al raggiungimento di uno stato terminale.
I compiti episodici sono quelli che consistono in una sequenza finita di stati, azioni e ricompense, in cui l'interazione dell'agente con l'ambiente è suddivisa in episodi distinti.
Al contrario, i compiti continui non presentano una chiara conclusione per ogni ciclo di interazione. L'agente interagisce continuamente con l'ambiente senza reimpostare lo stato iniziale e il processo di apprendimento è continuo, spesso senza un punto terminale definito.
Ritorno
È già noto che l'obiettivo principale dell'agente è massimizzare le ricompense cumulative. Sebbene la funzione di ricompensa fornisca ricompense istantanee, non tiene conto degli esiti futuri, il che può risultare problematico. Un agente addestrato esclusivamente a massimizzare le ricompense immediate potrebbe trascurare i benefici a lungo termine. Per affrontare questa problematica, introduciamo il concetto di ritorno.
Rendimento G è la ricompensa totale accumulata che un agente riceve da uno stato dato in poi, che incorpora tutte le ricompense che riceverà in futuro, non solo quelle immediate.
Il rendimento rappresenta meglio quanto sia vantaggioso uno stato o un'azione nel lungo termine. L'obiettivo dell'apprendimento per rinforzo può ora essere definito come massimizzare il rendimento.
Se T è il passo temporale finale, la formula del rendimento è la seguente:
Gt=Rt+1+Rt+2+Rt+3+...+RTSconto
Sebbene il ritorno semplice sia un buon obiettivo nei compiti episodici, nei compiti continui si presenta un problema. Se il numero di passi temporali è infinito, il ritorno stesso può diventare infinito. Per gestire questa situazione, si utilizza un fattore di sconto per garantire che le ricompense future abbiano un peso minore, evitando che il ritorno diventi infinito.
Il fattore di sconto γ è un fattore moltiplicativo utilizzato per determinare il valore attuale delle ricompense future. Assume valori compresi tra 0 e 1, dove un valore vicino a 0 porta l'agente a dare priorità alle ricompense immediate, mentre un valore vicino a 1 fa sì che l'agente consideri maggiormente le ricompense future.
Il ritorno combinato con un fattore di sconto è chiamato ritorno scontato.
La formula per il ritorno scontato è la seguente:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Anche nei compiti episodici, l'utilizzo di un fattore di sconto offre vantaggi pratici: motiva l'agente a raggiungere il proprio obiettivo il più rapidamente possibile, portando a un comportamento più efficiente. Per questo motivo, lo sconto viene comunemente applicato anche in contesti chiaramente episodici.
Grazie per i tuoi commenti!