Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Processo Decisionale di Markov
Il processo decisionale di Markov (MDP) è un quadro matematico utilizzato per modellare problemi di presa di decisione in cui un agente interagisce con un ambiente nel tempo.
I problemi di apprendimento per rinforzo sono spesso inquadrati come MDP, che forniscono un modo strutturato per definire il problema. Gli MDP descrivono l'ambiente utilizzando quattro componenti chiave: stati, azioni, transizioni e ricompense. Queste componenti lavorano insieme secondo la proprietà di Markov, che garantisce che lo stato futuro dipenda solo dallo stato e dall'azione attuali, e non dagli stati passati.
Le Quattro Componenti
Stato
Uno stato è una rappresentazione dell'ambiente in un determinato momento. L'insieme di tutti gli stati possibili è chiamato spazio degli stati .
Uno stato è solitamente rappresentato da un insieme di parametri che descrivono le caratteristiche rilevanti dell'ambiente. Questi parametri possono includere vari aspetti come posizione, velocità, rotazione, ecc.
Azione
Un'azione è una decisione o una mossa compiuta dall'agente per influenzare l'ambiente. L'insieme di tutte le possibili azioni è chiamato spazio delle azioni .
L'insieme delle azioni possibili di solito dipende dallo stato attuale.
Transizione
Transizione descrive come lo stato dell'ambiente cambia in risposta all'azione dell'agente. La funzione di transizione specifica la probabilità di passare da uno stato a un altro, dato un'azione specifica.
In molti casi, gli ambienti possono essere deterministici o stocastici, il che significa che la transizione può essere prevedibile oppure includere un certo grado di casualità.
Ricompensa
Una ricompensa è un valore numerico ricevuto dall'agente dopo aver eseguito un'azione in uno specifico stato. La funzione che associa le transizioni alle ricompense attese è chiamata funzione di ricompensa .
Le ricompense guidano l'agente verso comportamenti desiderabili e possono essere sia positive che negative. L'ingegnerizzazione della ricompensa è complessa, poiché l'agente potrebbe tentare di sfruttare le ricompense.
Proprietà di Markov
La proprietà di Markov in un processo decisionale di Markov afferma che il prossimo stato e la ricompensa dipendono solo dallo stato attuale e dall'azione corrente, e non da informazioni passate. Questo garantisce un quadro senza memoria, semplificando il processo di apprendimento.
Matematicamente, questa proprietà può essere descritta dalla seguente formula:
dove:
- è uno stato al tempo ;
- è un'azione eseguita al tempo ;
- è una ricompensa al tempo .
La natura senza memoria degli MDP non significa che le osservazioni passate vengano ignorate. Lo stato attuale dovrebbe codificare tutte le informazioni storiche rilevanti.
Grazie per i tuoi commenti!