Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Model, Beleid en Waarden | Kern Theorie van RL
Introductie tot Reinforcement Learning

bookModel, Beleid en Waarden

Model

Note
Definitie

Een model is een representatie van de omgeving die de overgangswaarschijnlijkheden tussen toestanden en de verwachte beloningen voor genomen acties definieert.

Versterkend leren-algoritmen kunnen worden onderverdeeld in twee categorieën:

  • Model-based: bij deze benadering leert de agent of heeft de agent toegang tot een model van de omgeving, waardoor het mogelijk is toekomstige toestanden en beloningen te simuleren voordat acties worden ondernomen. Dit stelt de agent in staat om te plannen en beter onderbouwde beslissingen te nemen;
  • Model-free: bij deze benadering heeft de agent geen direct model van de omgeving. Het leert uitsluitend door interactie met de omgeving, waarbij het vertrouwt op trial-and-error om de beste acties te ontdekken.

In de praktijk zijn omgevingen met expliciete modellen zeldzaam, waardoor het voor agents moeilijk is om op modelgebaseerde strategieën te vertrouwen. Hierdoor zijn modelvrije benaderingen gangbaarder geworden en uitgebreid bestudeerd in onderzoek en toepassingen van versterkend leren.

Beleidsstrategie

Note
Definitie

Beleidsstrategie π\pi is de strategie die een agent volgt om zijn acties te bepalen op basis van de huidige toestand van de omgeving.

Er zijn twee typen beleidsstrategieën:

  • Deterministisch beleid: de agent kiest altijd dezelfde actie voor een gegeven toestand;
  • Stochastisch beleid: de agent kiest acties op basis van kansverdelingen.

Tijdens het leerproces is het doel van de agent het vinden van een optimale policy. Een optimale policy is er een die de verwachte opbrengst maximaliseert en de agent begeleidt om in elke gegeven toestand de best mogelijke beslissingen te nemen.

Waardefuncties

Waardefuncties zijn essentieel om te begrijpen hoe een agent het potentieel van een bepaalde toestand of toestand-actie-paar beoordeelt. Ze worden gebruikt om de toekomstige verwachte beloningen te schatten, waardoor de agent weloverwogen beslissingen kan nemen.

Toestandswaardefunctie

Note
Definitie

Toestandswaardefunctie VV(of vv) is een functie die de verwachte opbrengst van het bevinden in een bepaalde toestand en het volgen van een specifiek beleid weergeeft. Het helpt bij het evalueren van de aantrekkelijkheid van toestanden.

De waarde van een toestand kan wiskundig als volgt worden uitgedrukt:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Staat-Actie Waardefunctie

Note
Definitie

Staat-actie waardefunctie QQ (of qq) is een functie die de verwachte opbrengst geeft van het nemen van een bepaalde actie in een gegeven staat en vervolgens het volgen van een specifiek beleid. Het helpt bij het evalueren van de wenselijkheid van acties in toestanden.

Staat-actie waardefunctie wordt vaak de actie waardefunctie genoemd.

De waarde van een actie kan wiskundig als volgt worden uitgedrukt:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relatie tussen Model, Policy en Waardefuncties

De concepten model, policy en waardefuncties zijn nauw met elkaar verbonden en vormen een uitgebreid kader voor het categoriseren van RL-algoritmen. Dit kader wordt gedefinieerd door twee primaire assen:

  • Leertarget: deze as vertegenwoordigt het spectrum van RL-algoritmen op basis van hun afhankelijkheid van waardefuncties, policyfuncties of een combinatie van beide;
  • Modeltoepassing: deze as onderscheidt algoritmen op basis van het gebruik van een model van de omgeving of uitsluitend leren door interactie.

Door deze dimensies te combineren, kunnen we RL-algoritmen indelen in onderscheidende categorieën, elk met een eigen set kenmerken en ideale toepassingsgebieden. Inzicht in deze relaties helpt bij het selecteren van het juiste algoritme voor specifieke taken, wat zorgt voor efficiënte leer- en besluitvormingsprocessen.

question-icon

Vul de lege plekken in

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain the difference between model-based and model-free reinforcement learning in more detail?

What is the significance of value functions in reinforcement learning?

How do deterministic and stochastic policies affect an agent's behavior?

Awesome!

Completion rate improved to 2.7

bookModel, Beleid en Waarden

Veeg om het menu te tonen

Model

Note
Definitie

Een model is een representatie van de omgeving die de overgangswaarschijnlijkheden tussen toestanden en de verwachte beloningen voor genomen acties definieert.

Versterkend leren-algoritmen kunnen worden onderverdeeld in twee categorieën:

  • Model-based: bij deze benadering leert de agent of heeft de agent toegang tot een model van de omgeving, waardoor het mogelijk is toekomstige toestanden en beloningen te simuleren voordat acties worden ondernomen. Dit stelt de agent in staat om te plannen en beter onderbouwde beslissingen te nemen;
  • Model-free: bij deze benadering heeft de agent geen direct model van de omgeving. Het leert uitsluitend door interactie met de omgeving, waarbij het vertrouwt op trial-and-error om de beste acties te ontdekken.

In de praktijk zijn omgevingen met expliciete modellen zeldzaam, waardoor het voor agents moeilijk is om op modelgebaseerde strategieën te vertrouwen. Hierdoor zijn modelvrije benaderingen gangbaarder geworden en uitgebreid bestudeerd in onderzoek en toepassingen van versterkend leren.

Beleidsstrategie

Note
Definitie

Beleidsstrategie π\pi is de strategie die een agent volgt om zijn acties te bepalen op basis van de huidige toestand van de omgeving.

Er zijn twee typen beleidsstrategieën:

  • Deterministisch beleid: de agent kiest altijd dezelfde actie voor een gegeven toestand;
  • Stochastisch beleid: de agent kiest acties op basis van kansverdelingen.

Tijdens het leerproces is het doel van de agent het vinden van een optimale policy. Een optimale policy is er een die de verwachte opbrengst maximaliseert en de agent begeleidt om in elke gegeven toestand de best mogelijke beslissingen te nemen.

Waardefuncties

Waardefuncties zijn essentieel om te begrijpen hoe een agent het potentieel van een bepaalde toestand of toestand-actie-paar beoordeelt. Ze worden gebruikt om de toekomstige verwachte beloningen te schatten, waardoor de agent weloverwogen beslissingen kan nemen.

Toestandswaardefunctie

Note
Definitie

Toestandswaardefunctie VV(of vv) is een functie die de verwachte opbrengst van het bevinden in een bepaalde toestand en het volgen van een specifiek beleid weergeeft. Het helpt bij het evalueren van de aantrekkelijkheid van toestanden.

De waarde van een toestand kan wiskundig als volgt worden uitgedrukt:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Staat-Actie Waardefunctie

Note
Definitie

Staat-actie waardefunctie QQ (of qq) is een functie die de verwachte opbrengst geeft van het nemen van een bepaalde actie in een gegeven staat en vervolgens het volgen van een specifiek beleid. Het helpt bij het evalueren van de wenselijkheid van acties in toestanden.

Staat-actie waardefunctie wordt vaak de actie waardefunctie genoemd.

De waarde van een actie kan wiskundig als volgt worden uitgedrukt:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relatie tussen Model, Policy en Waardefuncties

De concepten model, policy en waardefuncties zijn nauw met elkaar verbonden en vormen een uitgebreid kader voor het categoriseren van RL-algoritmen. Dit kader wordt gedefinieerd door twee primaire assen:

  • Leertarget: deze as vertegenwoordigt het spectrum van RL-algoritmen op basis van hun afhankelijkheid van waardefuncties, policyfuncties of een combinatie van beide;
  • Modeltoepassing: deze as onderscheidt algoritmen op basis van het gebruik van een model van de omgeving of uitsluitend leren door interactie.

Door deze dimensies te combineren, kunnen we RL-algoritmen indelen in onderscheidende categorieën, elk met een eigen set kenmerken en ideale toepassingsgebieden. Inzicht in deze relaties helpt bij het selecteren van het juiste algoritme voor specifieke taken, wat zorgt voor efficiënte leer- en besluitvormingsprocessen.

question-icon

Vul de lege plekken in

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5
some-alt