Leer Model, Beleid en Waarden | Kernprincipes van RL

Model

Definitie

Een model is een representatie van de omgeving die de overgangswaarschijnlijkheden tussen toestanden en de verwachte beloningen voor uitgevoerde acties definieert.

Versterkend leren-algoritmen kunnen worden onderverdeeld in twee categorieën:

Model-based: bij deze benadering leert de agent of heeft deze toegang tot een model van de omgeving, waardoor het mogelijk is toekomstige toestanden en beloningen te simuleren voordat acties worden uitgevoerd. Dit stelt de agent in staat om te plannen en meer geïnformeerde beslissingen te nemen;
Model-free: bij deze benadering beschikt de agent niet over een direct model van de omgeving. Het leert uitsluitend door interactie met de omgeving, waarbij het door middel van trial-and-error de beste acties ontdekt.

In de praktijk zijn omgevingen met expliciete modellen zeldzaam, waardoor het voor agenten moeilijk is om op modelgebaseerde strategieën te vertrouwen. Hierdoor zijn modelvrije benaderingen gangbaarder geworden en uitgebreid bestudeerd in onderzoek en toepassingen van versterkend leren.

Beleidsstrategie

Definitie

Beleidsstrategie $\pi$ is de strategie die een agent volgt om zijn acties te bepalen op basis van de huidige toestand van de omgeving.

Er zijn twee typen beleidsstrategieën:

Deterministisch beleid: de agent kiest altijd dezelfde actie voor een gegeven toestand;
Stochastisch beleid: de agent kiest acties op basis van kansverdelingen.

Tijdens het leerproces is het doel van de agent om een optimale policy te vinden. Een optimale policy is er een die de verwachte opbrengst maximaliseert en de agent begeleidt om in elke gegeven toestand de best mogelijke beslissingen te nemen.

Waardefuncties

Waardefuncties zijn essentieel om te begrijpen hoe een agent het potentieel van een bepaalde toestand of toestand-actie-paar beoordeelt. Ze worden gebruikt om de toekomstige verwachte beloningen te schatten, waardoor de agent weloverwogen beslissingen kan nemen.

Toestandswaardefunctie

Definitie

Toestandswaardefunctie $V$ (of $v$ ) is een functie die de verwachte opbrengst geeft van het bevinden in een bepaalde toestand en het volgen van een specifiek beleid. Het helpt bij het evalueren van de aantrekkelijkheid van toestanden.

De waarde van een toestand kan wiskundig als volgt worden uitgedrukt:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Staat-Actie Waardefunctie

Definitie

Staat-actie waardefunctie $Q$ (of $q$ ) is een functie die de verwachte opbrengst geeft van het nemen van een bepaalde actie in een gegeven staat en vervolgens een specifiek beleid te volgen. Het helpt bij het evalueren van de wenselijkheid van acties in toestanden.

Staat-actie waardefunctie wordt vaak de actie waardefunctie genoemd.

De waarde van een actie kan wiskundig als volgt worden uitgedrukt:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relatie tussen Model, Beleidsstrategie en Waardefuncties

De concepten model, beleidsstrategie en waardefuncties zijn nauw met elkaar verbonden en vormen een uitgebreid kader voor het categoriseren van RL-algoritmen. Dit kader wordt gedefinieerd door twee primaire assen:

Leertarget: deze as vertegenwoordigt het spectrum van RL-algoritmen op basis van hun afhankelijkheid van waardefuncties, beleidsfuncties of een combinatie van beide;
Modeltoepassing: deze as onderscheidt algoritmen op basis van het gebruik van een model van de omgeving of uitsluitend leren door interactie.

Door deze dimensies te combineren, kunnen RL-algoritmen worden geclassificeerd in onderscheidende categorieën, elk met een eigen set kenmerken en ideale toepassingsgebieden. Inzicht in deze relaties helpt bij het selecteren van het juiste algoritme voor specifieke taken, wat zorgt voor efficiënte leer- en besluitvormingsprocessen.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen

Model

Definitie

Een model is een representatie van de omgeving die de overgangswaarschijnlijkheden tussen toestanden en de verwachte beloningen voor uitgevoerde acties definieert.

Versterkend leren-algoritmen kunnen worden onderverdeeld in twee categorieën:

Model-based: bij deze benadering leert de agent of heeft deze toegang tot een model van de omgeving, waardoor het mogelijk is toekomstige toestanden en beloningen te simuleren voordat acties worden uitgevoerd. Dit stelt de agent in staat om te plannen en meer geïnformeerde beslissingen te nemen;
Model-free: bij deze benadering beschikt de agent niet over een direct model van de omgeving. Het leert uitsluitend door interactie met de omgeving, waarbij het door middel van trial-and-error de beste acties ontdekt.

Beleidsstrategie

Definitie

Beleidsstrategie $\pi$ is de strategie die een agent volgt om zijn acties te bepalen op basis van de huidige toestand van de omgeving.

Er zijn twee typen beleidsstrategieën:

Deterministisch beleid: de agent kiest altijd dezelfde actie voor een gegeven toestand;
Stochastisch beleid: de agent kiest acties op basis van kansverdelingen.

Waardefuncties

Toestandswaardefunctie

Definitie

De waarde van een toestand kan wiskundig als volgt worden uitgedrukt:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Staat-Actie Waardefunctie

Definitie

Staat-actie waardefunctie wordt vaak de actie waardefunctie genoemd.

De waarde van een actie kan wiskundig als volgt worden uitgedrukt:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relatie tussen Model, Beleidsstrategie en Waardefuncties

Leertarget: deze as vertegenwoordigt het spectrum van RL-algoritmen op basis van hun afhankelijkheid van waardefuncties, beleidsfuncties of een combinatie van beide;
Modeltoepassing: deze as onderscheidt algoritmen op basis van het gebruik van een model van de omgeving of uitsluitend leren door interactie.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5