Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Che cos'è l'Apprendimento a Differenza Temporale?
Sia la programmazione dinamica che i metodi Monte Carlo presentano alcune idee valide e alcuni importanti svantaggi.
Programmazione Dinamica
La programmazione dinamica offre un metodo efficiente per calcolare la funzione di valore di stato e derivare da essa una politica ottimale. Utilizza il bootstrapping — il calcolo del valore dello stato attuale basato sui valori degli stati futuri — per raggiungere questo obiettivo.
Sebbene il concetto di bootstrapping sia potente, la programmazione dinamica presenta due principali svantaggi:
- Richiede un modello completo ed esplicito dell'ambiente;
- I valori degli stati vengono calcolati per ogni stato, anche se lo stato non è vicino al percorso ottimale.
Metodi Monte Carlo
I metodi Monte Carlo risolvono i due principali svantaggi della programmazione dinamica:
- Non richiedono un modello, poiché apprendono dall'esperienza;
- Il modo in cui apprendono dall'esperienza rende l'esplorazione più limitata, quindi gli stati non importanti vengono raramente visitati.
Tuttavia, introducono una nuova limitazione: il processo di apprendimento avviene solo dopo la conclusione dell'episodio. Questo limita l'applicabilità dei metodi Monte Carlo a compiti episodici di piccole dimensioni, poiché compiti più grandi richiederebbero un numero estremamente elevato di azioni prima che l'episodio si concluda.
Apprendimento a Differenza Temporale
L'apprendimento per differenza temporale (TD) è il risultato della combinazione delle idee sia della programmazione dinamica che dei metodi Monte Carlo. Adotta l'approccio dell'apprendimento dall'esperienza dai metodi Monte Carlo e lo combina con il bootstrapping dalla programmazione dinamica.
Di conseguenza, l'apprendimento TD risolve i principali problemi dei due metodi:
- L'apprendimento dall'esperienza affronta il problema della necessità di un modello e quello degli spazi di stato di grandi dimensioni;
- Il bootstrapping affronta il problema dell'apprendimento episodico.
Come funziona?
L'apprendimento TD funziona attraverso un ciclo semplice:
- Stima del valore: l'agente parte da una stima iniziale di quanto sia buono lo stato attuale;
- Esecuzione di un'azione: esegue un'azione, riceve una ricompensa e si trova in un nuovo stato;
- Aggiornamento della stima: utilizzando la ricompensa e il valore del nuovo stato, l'agente modifica leggermente la stima originale per renderla più accurata;
- Ripetizione: nel tempo, ripetendo questo ciclo, l'agente costruisce gradualmente stime di valore migliori e più precise per diversi stati.
Tabella di confronto
Grazie per i tuoi commenti!