Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Model, Beleid en Waarden | Kernprincipes van RL
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Model, Beleid en Waarden

Model

Note
Definitie

Een model is een representatie van de omgeving die de overgangswaarschijnlijkheden tussen toestanden en de verwachte beloningen voor genomen acties definieert.

Versterkend leren-algoritmen kunnen worden onderverdeeld in twee categorieën:

  • Model-based: bij deze benadering leert de agent of heeft de agent toegang tot een model van de omgeving, waardoor het toekomstige toestanden en beloningen kan simuleren voordat acties worden ondernomen. Dit stelt de agent in staat om te plannen en beter onderbouwde beslissingen te nemen;
  • Model-free: bij deze benadering beschikt de agent niet over een direct model van de omgeving. Het leert uitsluitend door interactie met de omgeving, waarbij het door middel van trial-and-error de beste acties ontdekt.

In de praktijk zijn omgevingen met expliciete modellen zeldzaam, waardoor het voor agents moeilijk is om op modelgebaseerde strategieën te vertrouwen. Hierdoor zijn modelvrije benaderingen gangbaarder geworden en uitgebreid bestudeerd binnen onderzoek en toepassingen van versterkend leren.

Beleid

Note
Definitie

Beleid π\pi is de strategie die een agent volgt om zijn acties te bepalen op basis van de huidige toestand van de omgeving.

Er zijn twee typen beleid:

  • Deterministisch beleid: de agent kiest altijd dezelfde actie voor een gegeven toestand;
  • Stochastisch beleid: de agent kiest acties op basis van kansverdelingen.

Tijdens het leerproces is het doel van de agent het vinden van een optimale policy. Een optimale policy maximaliseert de verwachte opbrengst en stuurt de agent aan om in elke gegeven toestand de best mogelijke beslissingen te nemen.

Waardefuncties

Waardefuncties zijn essentieel om te begrijpen hoe een agent het potentieel van een bepaalde toestand of toestand-actie-paar beoordeelt. Ze worden gebruikt om de toekomstige verwachte beloningen te schatten, waardoor de agent weloverwogen beslissingen kan nemen.

Toestandswaardefunctie

Note
Definitie

Toestandswaardefunctie VV (of vv) is een functie die de verwachte opbrengst geeft van het bevinden in een bepaalde toestand en het volgen van een specifiek beleid. Het helpt bij het evalueren van de aantrekkelijkheid van toestanden.

De waarde van een toestand kan wiskundig als volgt worden uitgedrukt:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Staat-Actie Waardefunctie

Note
Definitie

Staat-actie waardefunctie QQ(of qq) is een functie die de verwachte opbrengst geeft van het nemen van een bepaalde actie in een gegeven toestand en vervolgens het volgen van een specifiek beleid. Het helpt bij het evalueren van de wenselijkheid van acties in toestanden.

Staat-actie waardefunctie wordt vaak de actie waardefunctie genoemd.

De waarde van een actie kan wiskundig als volgt worden uitgedrukt:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relatie tussen Model, Policy en Waardefuncties

De concepten model, policy en waardefuncties zijn nauw met elkaar verbonden en vormen een uitgebreid kader voor het categoriseren van RL-algoritmen. Dit kader wordt gedefinieerd door twee primaire assen:

  • Leertarget: deze as vertegenwoordigt het spectrum van RL-algoritmen op basis van hun afhankelijkheid van waardefuncties, policyfuncties of een combinatie van beide;
  • Modeltoepassing: deze as onderscheidt algoritmen op basis van het gebruik van een model van de omgeving of het uitsluitend leren door interactie.

Door deze dimensies te combineren, kunnen we RL-algoritmen indelen in onderscheidende categorieën, elk met hun eigen kenmerken en ideale toepassingsgebieden. Inzicht in deze relaties helpt bij het selecteren van het juiste algoritme voor specifieke taken, wat zorgt voor efficiënte leer- en besluitvormingsprocessen.

question-icon

Vul de lege plekken in

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Model, Beleid en Waarden

Model

Note
Definitie

Een model is een representatie van de omgeving die de overgangswaarschijnlijkheden tussen toestanden en de verwachte beloningen voor genomen acties definieert.

Versterkend leren-algoritmen kunnen worden onderverdeeld in twee categorieën:

  • Model-based: bij deze benadering leert de agent of heeft de agent toegang tot een model van de omgeving, waardoor het toekomstige toestanden en beloningen kan simuleren voordat acties worden ondernomen. Dit stelt de agent in staat om te plannen en beter onderbouwde beslissingen te nemen;
  • Model-free: bij deze benadering beschikt de agent niet over een direct model van de omgeving. Het leert uitsluitend door interactie met de omgeving, waarbij het door middel van trial-and-error de beste acties ontdekt.

In de praktijk zijn omgevingen met expliciete modellen zeldzaam, waardoor het voor agents moeilijk is om op modelgebaseerde strategieën te vertrouwen. Hierdoor zijn modelvrije benaderingen gangbaarder geworden en uitgebreid bestudeerd binnen onderzoek en toepassingen van versterkend leren.

Beleid

Note
Definitie

Beleid π\pi is de strategie die een agent volgt om zijn acties te bepalen op basis van de huidige toestand van de omgeving.

Er zijn twee typen beleid:

  • Deterministisch beleid: de agent kiest altijd dezelfde actie voor een gegeven toestand;
  • Stochastisch beleid: de agent kiest acties op basis van kansverdelingen.

Tijdens het leerproces is het doel van de agent het vinden van een optimale policy. Een optimale policy maximaliseert de verwachte opbrengst en stuurt de agent aan om in elke gegeven toestand de best mogelijke beslissingen te nemen.

Waardefuncties

Waardefuncties zijn essentieel om te begrijpen hoe een agent het potentieel van een bepaalde toestand of toestand-actie-paar beoordeelt. Ze worden gebruikt om de toekomstige verwachte beloningen te schatten, waardoor de agent weloverwogen beslissingen kan nemen.

Toestandswaardefunctie

Note
Definitie

Toestandswaardefunctie VV (of vv) is een functie die de verwachte opbrengst geeft van het bevinden in een bepaalde toestand en het volgen van een specifiek beleid. Het helpt bij het evalueren van de aantrekkelijkheid van toestanden.

De waarde van een toestand kan wiskundig als volgt worden uitgedrukt:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Staat-Actie Waardefunctie

Note
Definitie

Staat-actie waardefunctie QQ(of qq) is een functie die de verwachte opbrengst geeft van het nemen van een bepaalde actie in een gegeven toestand en vervolgens het volgen van een specifiek beleid. Het helpt bij het evalueren van de wenselijkheid van acties in toestanden.

Staat-actie waardefunctie wordt vaak de actie waardefunctie genoemd.

De waarde van een actie kan wiskundig als volgt worden uitgedrukt:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relatie tussen Model, Policy en Waardefuncties

De concepten model, policy en waardefuncties zijn nauw met elkaar verbonden en vormen een uitgebreid kader voor het categoriseren van RL-algoritmen. Dit kader wordt gedefinieerd door twee primaire assen:

  • Leertarget: deze as vertegenwoordigt het spectrum van RL-algoritmen op basis van hun afhankelijkheid van waardefuncties, policyfuncties of een combinatie van beide;
  • Modeltoepassing: deze as onderscheidt algoritmen op basis van het gebruik van een model van de omgeving of het uitsluitend leren door interactie.

Door deze dimensies te combineren, kunnen we RL-algoritmen indelen in onderscheidende categorieën, elk met hun eigen kenmerken en ideale toepassingsgebieden. Inzicht in deze relaties helpt bij het selecteren van het juiste algoritme voor specifieke taken, wat zorgt voor efficiënte leer- en besluitvormingsprocessen.

question-icon

Vul de lege plekken in

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5
some-alt