Impara Processo Decisionale di Markov | Teoria Fondamentale dell'RL

Definizione

Il processo decisionale di Markov (MDP) è un quadro matematico utilizzato per modellare problemi di presa di decisione in cui un agente interagisce con un ambiente nel tempo.

I problemi di apprendimento per rinforzo sono spesso inquadrati come MDP, che forniscono un modo strutturato per definire il problema. Gli MDP descrivono l'ambiente utilizzando quattro componenti chiave: stati, azioni, transizioni e ricompense. Queste componenti lavorano insieme secondo la proprietà di Markov, che garantisce che lo stato futuro dipenda solo dallo stato e dall'azione attuali, e non dagli stati passati.

Le quattro componenti

Stato

Definizione

Uno stato $s$ è una rappresentazione dell'ambiente in un determinato momento. L'insieme di tutti gli stati possibili è chiamato spazio degli stati $S$ .

Uno stato è solitamente rappresentato da un insieme di parametri che raccolgono le caratteristiche rilevanti dell'ambiente. Questi parametri possono includere vari aspetti come posizione, velocità, rotazione, ecc.

Azione

Definizione

Un'azione $a$ è una decisione o una mossa effettuata dall'agente per influenzare l'ambiente. L'insieme di tutte le possibili azioni è chiamato spazio delle azioni $A$ .

L'insieme delle azioni possibili di solito dipende dallo stato attuale.

Transizione

Definizione

Transizione descrive come lo stato dell'ambiente cambia in risposta all'azione dell'agente. La funzione di transizione $p$ specifica la probabilità di passare da uno stato all'altro, dato un'azione specifica.

In molti casi, gli ambienti possono essere deterministici o stocastici, il che significa che la transizione può essere prevedibile oppure comportare un certo grado di casualità.

Ricompensa

Definizione

Una ricompensa $r$ è un valore numerico ricevuto dall'agente dopo aver eseguito un'azione in uno specifico stato. La funzione che associa le transizioni alle ricompense attese è chiamata funzione di ricompensa $R$ .

Le ricompense guidano l'agente verso comportamenti desiderabili e possono essere sia positive che negative. L'ingegneria delle ricompense è complessa, poiché l'agente potrebbe tentare di sfruttare le ricompense.

Proprietà di Markov

La proprietà di Markov in un processo decisionale di Markov afferma che il prossimo stato e la ricompensa dipendono solo dallo stato attuale e dall'azione corrente, e non da informazioni passate. Questo garantisce un quadro senza memoria, semplificando il processo di apprendimento.

Matematicamente, questa proprietà può essere descritta dalla seguente formula:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

dove:

$S_t$ è uno stato al tempo $t$ ;
$A_t$ è un'azione eseguita al tempo $t$ ;
$R_t$ è una ricompensa al tempo $t$ .

Nota

La natura senza memoria degli MDP non significa che le osservazioni passate vengano ignorate. Lo stato attuale dovrebbe codificare tutte le informazioni storiche rilevanti.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 3

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 2.7

Scorri per mostrare il menu

Definizione

Il processo decisionale di Markov (MDP) è un quadro matematico utilizzato per modellare problemi di presa di decisione in cui un agente interagisce con un ambiente nel tempo.

Le quattro componenti

Stato

Definizione

Uno stato $s$ è una rappresentazione dell'ambiente in un determinato momento. L'insieme di tutti gli stati possibili è chiamato spazio degli stati $S$ .

Azione

Definizione

Un'azione $a$ è una decisione o una mossa effettuata dall'agente per influenzare l'ambiente. L'insieme di tutte le possibili azioni è chiamato spazio delle azioni $A$ .

L'insieme delle azioni possibili di solito dipende dallo stato attuale.

Transizione

Definizione

In molti casi, gli ambienti possono essere deterministici o stocastici, il che significa che la transizione può essere prevedibile oppure comportare un certo grado di casualità.

Ricompensa

Definizione

Proprietà di Markov

Matematicamente, questa proprietà può essere descritta dalla seguente formula:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

dove:

$S_t$ è uno stato al tempo $t$ ;
$A_t$ è un'azione eseguita al tempo $t$ ;
$R_t$ è una ricompensa al tempo $t$ .

Nota

La natura senza memoria degli MDP non significa che le osservazioni passate vengano ignorate. Lo stato attuale dovrebbe codificare tutte le informazioni storiche rilevanti.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 3