Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Markov Beslutningsproces | RL Kerneprincipper
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Markov Beslutningsproces

Note
Definition

Markov beslutningsproces (MDP) er en matematisk ramme, der bruges til at modellere beslutningstagning-problemer, hvor en agent interagerer med et miljø over tid.

Forstærkningslæringsproblemer opstilles ofte som MDP'er, hvilket giver en struktureret måde at definere problemet på. MDP'er beskriver miljøet ved hjælp af fire nøglekomponenter: tilstande, handlinger, overgange og belønninger. Disse komponenter fungerer sammen under Markov-egenskaben, som sikrer, at den fremtidige tilstand kun afhænger af den nuværende tilstand og handling, ikke af tidligere tilstande.

De fire komponenter

Tilstand

Note
Definition

En tilstand ss er en repræsentation af miljøet på et bestemt tidspunkt. Mængden af alle mulige tilstande kaldes et tilstandsrum SS.

En tilstand repræsenteres typisk af et sæt parametre, der indfanger de relevante egenskaber ved miljøet. Disse parametre kan omfatte forskellige aspekter såsom position, hastighed, rotation osv.

Handling

Note
Definition

En handling aa er en beslutning eller et træk foretaget af agenten for at påvirke miljøet. Mængden af alle mulige handlinger kaldes et handlingsrum AA.

Mængden af mulige handlinger afhænger normalt af den aktuelle tilstand.

Transition

Note
Definition

Transition beskriver, hvordan miljøets tilstand ændres som reaktion på agentens handling. Transitionsfunktionen pp angiver sandsynligheden for at bevæge sig fra en tilstand til en anden, givet en specifik handling.

I mange tilfælde kan miljøer enten være deterministiske eller stokastiske, hvilket betyder, at transitionen kan være forudsigelig eller kan indeholde en vis grad af tilfældighed.

Belønning

Note
Definition

En belønning rr er en numerisk værdi, som agenten modtager efter at have udført en handling i en bestemt tilstand. Funktionen, der kortlægger overgange til forventede belønninger, kaldes belønningsfunktionen RR.

Belønninger styrer agenten mod ønsket adfærd og kan være enten positive eller negative. Belønningsdesign er komplekst, da agenten kan forsøge at udnytte belønningerne.

Markov-egenskaben

Markov-egenskaben i en Markov-beslutningsproces angiver, at næste tilstand og belønning afhænger udelukkende af nuværende tilstand og handling, ikke af tidligere information. Dette sikrer en hukommelsesfri ramme, hvilket forenkler læringsprocessen.

Matematisk kan denne egenskab beskrives med følgende formel:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

hvor:

  • StS_t er en tilstand på tidspunktet tt;
  • AtA_t er en handling udført på tidspunktet tt;
  • RtR_t er en belønning på tidspunktet tt.
Note
Bemærk

Den hukommelsesfri karakter af MDP betyder ikke, at tidligere observationer ignoreres. Nuværende tilstand skal indeholde al relevant historisk information.

question mark

Forestil dig, at agenten spiller et spil. Hvilken af disse er en god repræsentation af et miljøs tilstand i en MDP?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 3

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Markov Beslutningsproces

Note
Definition

Markov beslutningsproces (MDP) er en matematisk ramme, der bruges til at modellere beslutningstagning-problemer, hvor en agent interagerer med et miljø over tid.

Forstærkningslæringsproblemer opstilles ofte som MDP'er, hvilket giver en struktureret måde at definere problemet på. MDP'er beskriver miljøet ved hjælp af fire nøglekomponenter: tilstande, handlinger, overgange og belønninger. Disse komponenter fungerer sammen under Markov-egenskaben, som sikrer, at den fremtidige tilstand kun afhænger af den nuværende tilstand og handling, ikke af tidligere tilstande.

De fire komponenter

Tilstand

Note
Definition

En tilstand ss er en repræsentation af miljøet på et bestemt tidspunkt. Mængden af alle mulige tilstande kaldes et tilstandsrum SS.

En tilstand repræsenteres typisk af et sæt parametre, der indfanger de relevante egenskaber ved miljøet. Disse parametre kan omfatte forskellige aspekter såsom position, hastighed, rotation osv.

Handling

Note
Definition

En handling aa er en beslutning eller et træk foretaget af agenten for at påvirke miljøet. Mængden af alle mulige handlinger kaldes et handlingsrum AA.

Mængden af mulige handlinger afhænger normalt af den aktuelle tilstand.

Transition

Note
Definition

Transition beskriver, hvordan miljøets tilstand ændres som reaktion på agentens handling. Transitionsfunktionen pp angiver sandsynligheden for at bevæge sig fra en tilstand til en anden, givet en specifik handling.

I mange tilfælde kan miljøer enten være deterministiske eller stokastiske, hvilket betyder, at transitionen kan være forudsigelig eller kan indeholde en vis grad af tilfældighed.

Belønning

Note
Definition

En belønning rr er en numerisk værdi, som agenten modtager efter at have udført en handling i en bestemt tilstand. Funktionen, der kortlægger overgange til forventede belønninger, kaldes belønningsfunktionen RR.

Belønninger styrer agenten mod ønsket adfærd og kan være enten positive eller negative. Belønningsdesign er komplekst, da agenten kan forsøge at udnytte belønningerne.

Markov-egenskaben

Markov-egenskaben i en Markov-beslutningsproces angiver, at næste tilstand og belønning afhænger udelukkende af nuværende tilstand og handling, ikke af tidligere information. Dette sikrer en hukommelsesfri ramme, hvilket forenkler læringsprocessen.

Matematisk kan denne egenskab beskrives med følgende formel:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

hvor:

  • StS_t er en tilstand på tidspunktet tt;
  • AtA_t er en handling udført på tidspunktet tt;
  • RtR_t er en belønning på tidspunktet tt.
Note
Bemærk

Den hukommelsesfri karakter af MDP betyder ikke, at tidligere observationer ignoreres. Nuværende tilstand skal indeholde al relevant historisk information.

question mark

Forestil dig, at agenten spiller et spil. Hvilken af disse er en god repræsentation af et miljøs tilstand i en MDP?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 3
some-alt