Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Processo Decisionale di Markov | Teoria Fondamentale dell'RL
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Processo Decisionale di Markov

Note
Definizione

Il processo decisionale di Markov (MDP) è un quadro matematico utilizzato per modellare problemi di presa di decisione in cui un agente interagisce con un ambiente nel tempo.

I problemi di apprendimento per rinforzo sono spesso inquadrati come MDP, che forniscono un modo strutturato per definire il problema. Gli MDP descrivono l'ambiente utilizzando quattro componenti chiave: stati, azioni, transizioni e ricompense. Queste componenti lavorano insieme secondo la proprietà di Markov, che garantisce che lo stato futuro dipenda solo dallo stato e dall'azione attuali, e non dagli stati passati.

Le Quattro Componenti

Stato

Note
Definizione

Uno stato ss è una rappresentazione dell'ambiente in un determinato momento. L'insieme di tutti gli stati possibili è chiamato spazio degli stati SS.

Uno stato è solitamente rappresentato da un insieme di parametri che descrivono le caratteristiche rilevanti dell'ambiente. Questi parametri possono includere vari aspetti come posizione, velocità, rotazione, ecc.

Azione

Note
Definizione

Un'azione aa è una decisione o una mossa compiuta dall'agente per influenzare l'ambiente. L'insieme di tutte le possibili azioni è chiamato spazio delle azioni AA.

L'insieme delle azioni possibili di solito dipende dallo stato attuale.

Transizione

Note
Definizione

Transizione descrive come lo stato dell'ambiente cambia in risposta all'azione dell'agente. La funzione di transizione pp specifica la probabilità di passare da uno stato a un altro, dato un'azione specifica.

In molti casi, gli ambienti possono essere deterministici o stocastici, il che significa che la transizione può essere prevedibile oppure includere un certo grado di casualità.

Ricompensa

Note
Definizione

Una ricompensa rr è un valore numerico ricevuto dall'agente dopo aver eseguito un'azione in uno specifico stato. La funzione che associa le transizioni alle ricompense attese è chiamata funzione di ricompensa RR.

Le ricompense guidano l'agente verso comportamenti desiderabili e possono essere sia positive che negative. L'ingegnerizzazione della ricompensa è complessa, poiché l'agente potrebbe tentare di sfruttare le ricompense.

Proprietà di Markov

La proprietà di Markov in un processo decisionale di Markov afferma che il prossimo stato e la ricompensa dipendono solo dallo stato attuale e dall'azione corrente, e non da informazioni passate. Questo garantisce un quadro senza memoria, semplificando il processo di apprendimento.

Matematicamente, questa proprietà può essere descritta dalla seguente formula:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

dove:

  • StS_t è uno stato al tempo tt;
  • AtA_t è un'azione eseguita al tempo tt;
  • RtR_t è una ricompensa al tempo tt.
Note
Nota

La natura senza memoria degli MDP non significa che le osservazioni passate vengano ignorate. Lo stato attuale dovrebbe codificare tutte le informazioni storiche rilevanti.

question mark

Immagina che l'agente stia giocando una partita. Quale di queste è una buona rappresentazione dello stato dell'ambiente in un MDP?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Processo Decisionale di Markov

Note
Definizione

Il processo decisionale di Markov (MDP) è un quadro matematico utilizzato per modellare problemi di presa di decisione in cui un agente interagisce con un ambiente nel tempo.

I problemi di apprendimento per rinforzo sono spesso inquadrati come MDP, che forniscono un modo strutturato per definire il problema. Gli MDP descrivono l'ambiente utilizzando quattro componenti chiave: stati, azioni, transizioni e ricompense. Queste componenti lavorano insieme secondo la proprietà di Markov, che garantisce che lo stato futuro dipenda solo dallo stato e dall'azione attuali, e non dagli stati passati.

Le Quattro Componenti

Stato

Note
Definizione

Uno stato ss è una rappresentazione dell'ambiente in un determinato momento. L'insieme di tutti gli stati possibili è chiamato spazio degli stati SS.

Uno stato è solitamente rappresentato da un insieme di parametri che descrivono le caratteristiche rilevanti dell'ambiente. Questi parametri possono includere vari aspetti come posizione, velocità, rotazione, ecc.

Azione

Note
Definizione

Un'azione aa è una decisione o una mossa compiuta dall'agente per influenzare l'ambiente. L'insieme di tutte le possibili azioni è chiamato spazio delle azioni AA.

L'insieme delle azioni possibili di solito dipende dallo stato attuale.

Transizione

Note
Definizione

Transizione descrive come lo stato dell'ambiente cambia in risposta all'azione dell'agente. La funzione di transizione pp specifica la probabilità di passare da uno stato a un altro, dato un'azione specifica.

In molti casi, gli ambienti possono essere deterministici o stocastici, il che significa che la transizione può essere prevedibile oppure includere un certo grado di casualità.

Ricompensa

Note
Definizione

Una ricompensa rr è un valore numerico ricevuto dall'agente dopo aver eseguito un'azione in uno specifico stato. La funzione che associa le transizioni alle ricompense attese è chiamata funzione di ricompensa RR.

Le ricompense guidano l'agente verso comportamenti desiderabili e possono essere sia positive che negative. L'ingegnerizzazione della ricompensa è complessa, poiché l'agente potrebbe tentare di sfruttare le ricompense.

Proprietà di Markov

La proprietà di Markov in un processo decisionale di Markov afferma che il prossimo stato e la ricompensa dipendono solo dallo stato attuale e dall'azione corrente, e non da informazioni passate. Questo garantisce un quadro senza memoria, semplificando il processo di apprendimento.

Matematicamente, questa proprietà può essere descritta dalla seguente formula:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

dove:

  • StS_t è uno stato al tempo tt;
  • AtA_t è un'azione eseguita al tempo tt;
  • RtR_t è una ricompensa al tempo tt.
Note
Nota

La natura senza memoria degli MDP non significa che le osservazioni passate vengano ignorate. Lo stato attuale dovrebbe codificare tutte le informazioni storiche rilevanti.

question mark

Immagina che l'agente stia giocando una partita. Quale di queste è una buona rappresentazione dello stato dell'ambiente in un MDP?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 3
some-alt