Lära Markovbeslutsprocess

Definition

Markovbeslutsprocess (MDP) är en matematisk ram som används för att modellera beslutsfattande problem där en agent interagerar med en miljö över tid.

Förstärkningsinlärningsproblem formuleras ofta som MDP:er, vilket ger ett strukturerat sätt att definiera problemet. MDP:er beskriver miljön med hjälp av fyra nyckelkomponenter: tillstånd, handlingar, övergångar och belöningar. Dessa komponenter samverkar enligt Markovegenskapen, som säkerställer att framtida tillstånd beror endast på nuvarande tillstånd och handling, inte på tidigare tillstånd.

De fyra komponenterna

Tillstånd

Definition

Ett tillstånd $s$ är en representation av miljön vid en specifik tidpunkt. Mängden av alla möjliga tillstånd kallas för tillståndsrum $S$ .

Ett tillstånd representeras vanligtvis av en uppsättning parametrar som fångar de relevanta egenskaperna hos miljön. Dessa parametrar kan inkludera olika aspekter såsom position, hastighet, rotation, etc.

Åtgärd

Definition

En åtgärd $a$ är ett beslut eller ett drag som agenten gör för att påverka miljön. Mängden av alla möjliga åtgärder kallas för ett åtgärdsutrymme $A$ .

Mängden av möjliga åtgärder beror vanligtvis på det aktuella tillståndet.

Övergång

Definition

Övergång beskriver hur miljöns tillstånd förändras som svar på agentens handling. Övergångsfunktionen $p$ anger sannolikheten för att gå från ett tillstånd till ett annat, givet en specifik handling.

I många fall kan miljöer vara antingen deterministiska eller stokastiska, vilket innebär att övergången kan vara förutsägbar eller innefatta en viss grad av slumpmässighet.

Belöning

Definition

En belöning $r$ är ett numeriskt värde som agenten erhåller efter att ha utfört en åtgärd i ett visst tillstånd. Funktionen som avbildar övergångar till förväntade belöningar kallas belöningsfunktionen $R$ .

Belöningar styr agenten mot önskvärt beteende och kan vara antingen positiva eller negativa. Belöningsdesign är komplext, eftersom agenten kan försöka utnyttja belöningarna.

Markov-egenskapen

Markov-egenskapen i en Markov-beslutsprocess innebär att nästa tillstånd och belöning beror endast på nuvarande tillstånd och handling, och inte på tidigare information. Detta säkerställer en minneslös struktur, vilket förenklar inlärningsprocessen.

Matematiskt kan denna egenskap beskrivas med följande formel:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

där:

$S_t$ är ett tillstånd vid tidpunkt $t$ ;
$A_t$ är en handling utförd vid tidpunkt $t$ ;
$R_t$ är en belöning vid tidpunkt $t$ .

Notering

Den minneslösa naturen hos MDP innebär inte att tidigare observationer ignoreras. Nuvarande tillstånd bör koda all relevant historisk information.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 3

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 2.7

Svep för att visa menyn

Definition

Markovbeslutsprocess (MDP) är en matematisk ram som används för att modellera beslutsfattande problem där en agent interagerar med en miljö över tid.

De fyra komponenterna

Tillstånd

Definition

Ett tillstånd $s$ är en representation av miljön vid en specifik tidpunkt. Mängden av alla möjliga tillstånd kallas för tillståndsrum $S$ .

Åtgärd

Definition

En åtgärd $a$ är ett beslut eller ett drag som agenten gör för att påverka miljön. Mängden av alla möjliga åtgärder kallas för ett åtgärdsutrymme $A$ .

Mängden av möjliga åtgärder beror vanligtvis på det aktuella tillståndet.

Övergång

Definition

Belöning

Definition

Markov-egenskapen

Matematiskt kan denna egenskap beskrivas med följande formel:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

där:

$S_t$ är ett tillstånd vid tidpunkt $t$ ;
$A_t$ är en handling utförd vid tidpunkt $t$ ;
$R_t$ är en belöning vid tidpunkt $t$ .

Notering

Den minneslösa naturen hos MDP innebär inte att tidigare observationer ignoreras. Nuvarande tillstånd bör koda all relevant historisk information.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 3