Leer Markov-beslissingsproces | Kernprincipes van RL

Definitie

Markov-beslissingsproces (MDP) is een wiskundig raamwerk dat wordt gebruikt om besluitvormingsproblemen te modelleren waarbij een agent in de loop van de tijd met een omgeving interageert.

Reinforcement learning-problemen worden vaak geformuleerd als MDP's, die een gestructureerde manier bieden om het probleem te definiëren. MDP's beschrijven de omgeving met behulp van vier kerncomponenten: toestanden, acties, transities en beloningen. Deze componenten werken samen onder de Markov-eigenschap, die garandeert dat de toekomstige toestand alleen afhangt van de huidige toestand en actie, en niet van eerdere toestanden.

De Vier Componenten

Toestand

Definitie

Een toestand $s$ is een representatie van de omgeving op een specifiek moment in de tijd. De verzameling van alle mogelijke toestanden wordt de toestandsruimte $S$ genoemd.

Een toestand wordt doorgaans weergegeven door een set parameters die de relevante kenmerken van de omgeving vastleggen. Deze parameters kunnen verschillende aspecten omvatten, zoals positie, snelheid, rotatie, enzovoort.

Actie

Definitie

Een actie $a$ is een beslissing of zet die door de agent wordt genomen om de omgeving te beïnvloeden. De verzameling van alle mogelijke acties wordt de actieruimte $A$ genoemd.

De verzameling van mogelijke acties is meestal afhankelijk van de huidige toestand.

Transitie

Definitie

Transitie beschrijft hoe de toestand van de omgeving verandert als reactie op de actie van de agent. De transitiefunctie $p$ specificeert de kans om van de ene toestand naar de andere te gaan, gegeven een specifieke actie.

In veel gevallen kunnen omgevingen zowel deterministisch als stochastisch zijn, wat betekent dat de transitie voorspelbaar kan zijn of een zekere mate van willekeur kan bevatten.

Beloning

Definitie

Een beloning $r$ is een numerieke waarde die door de agent wordt ontvangen na het uitvoeren van een actie in een bepaalde toestand. De functie die transities koppelt aan verwachte beloningen wordt de beloningsfunctie $R$ genoemd.

Beloningen sturen de agent naar wenselijk gedrag en kunnen zowel positief als negatief zijn. Het ontwerpen van beloningen is complex, omdat de agent kan proberen de beloningen te exploiteren.

Markov-eigenschap

De Markov-eigenschap in een Markov-beslissingsproces stelt dat de volgende toestand en beloning alleen afhangen van de huidige toestand en actie, en niet van eerdere informatie. Dit zorgt voor een geheugenloos kader, wat het leerproces vereenvoudigt.

Wiskundig kan deze eigenschap worden beschreven met de volgende formule:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

waarbij:

$S_t$ een toestand is op tijdstip $t$ ;
$A_t$ een actie is uitgevoerd op tijdstip $t$ ;
$R_t$ een beloning is op tijdstip $t$ .

Opmerking

De geheugenloze aard van MDP betekent niet dat eerdere observaties worden genegeerd. De huidige toestand moet alle relevante historische informatie bevatten.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain more about how the Markov property simplifies reinforcement learning?

What are some examples of states, actions, transitions, and rewards in real-world problems?

How does reward engineering impact the behavior of reinforcement learning agents?

Awesome!

Completion rate improved to 2.7

Veeg om het menu te tonen

Definitie

De Vier Componenten

Toestand

Definitie

Een toestand $s$ is een representatie van de omgeving op een specifiek moment in de tijd. De verzameling van alle mogelijke toestanden wordt de toestandsruimte $S$ genoemd.

Actie

Definitie

Een actie $a$ is een beslissing of zet die door de agent wordt genomen om de omgeving te beïnvloeden. De verzameling van alle mogelijke acties wordt de actieruimte $A$ genoemd.

De verzameling van mogelijke acties is meestal afhankelijk van de huidige toestand.

Transitie

Definitie

In veel gevallen kunnen omgevingen zowel deterministisch als stochastisch zijn, wat betekent dat de transitie voorspelbaar kan zijn of een zekere mate van willekeur kan bevatten.

Beloning

Definitie

Markov-eigenschap

Wiskundig kan deze eigenschap worden beschreven met de volgende formule:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

waarbij:

$S_t$ een toestand is op tijdstip $t$ ;
$A_t$ een actie is uitgevoerd op tijdstip $t$ ;
$R_t$ een beloning is op tijdstip $t$ .

Opmerking

De geheugenloze aard van MDP betekent niet dat eerdere observaties worden genegeerd. De huidige toestand moet alle relevante historische informatie bevatten.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3