Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Markov Beslutningsprosess | Kjerneprinsipper i RL
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Markov Beslutningsprosess

Note
Definisjon

Markov beslutningsprosess (MDP) er et matematisk rammeverk som brukes til å modellere beslutningsproblemer der en agent samhandler med et miljø over tid.

Forsterkende læring blir ofte formulert som MDP-er, som gir en strukturert måte å definere problemet på. MDP-er beskriver miljøet ved hjelp av fire nøkkelkomponenter: tilstander, handlinger, overganger og belønninger. Disse komponentene fungerer sammen under Markov-egenskapen, som sikrer at fremtidig tilstand avhenger kun av nåværende tilstand og handling, ikke av tidligere tilstander.

De fire komponentene

Tilstand

Note
Definisjon

En tilstand ss er en representasjon av miljøet på et bestemt tidspunkt. Mengden av alle mulige tilstander kalles et tilstandsrom SS.

En tilstand representeres vanligvis av et sett med parametere som fanger opp relevante egenskaper ved miljøet. Disse parameterne kan inkludere ulike aspekter som posisjon, hastighet, rotasjon osv.

Handling

Note
Definisjon

En handling aa er en beslutning eller et trekk gjort av agenten for å påvirke miljøet. Mengden av alle mulige handlinger kalles et handlingsrom AA.

Mengden av mulige handlinger avhenger vanligvis av nåværende tilstand.

Overgang

Note
Definisjon

Overgang beskriver hvordan miljøets tilstand endres som respons på agentens handling. Overgangsfunksjonen pp angir sannsynligheten for å gå fra én tilstand til en annen, gitt en spesifikk handling.

I mange tilfeller kan miljøer være enten deterministiske eller stokastiske, noe som betyr at overgangen kan være forutsigbar eller innebære en viss grad av tilfeldighet.

Belønning

Note
Definisjon

En belønning rr er en numerisk verdi mottatt av agenten etter å ha utført en handling i en bestemt tilstand. Funksjonen som kartlegger overganger til forventede belønninger kalles belønningsfunksjonen RR.

Belønninger styrer agenten mot ønsket atferd, og kan være enten positive eller negative. Belønningsutforming er komplekst, ettersom agenten kan forsøke å utnytte belønningene.

Markov-egenskapen

Markov-egenskapen i en Markov beslutningsprosess sier at neste tilstand og belønning avhenger kun av nåværende tilstand og handling, ikke av tidligere informasjon. Dette sikrer en hukommelsesfri ramme, noe som forenkler læringsprosessen.

Matematisk kan denne egenskapen beskrives med følgende formel:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

hvor:

  • StS_t er en tilstand ved tid tt;
  • AtA_t er en handling utført ved tid tt;
  • RtR_t er en belønning ved tid tt.
Note
Merk

Den hukommelsesfrie naturen til MDP betyr ikke at tidligere observasjoner blir ignorert. Nåværende tilstand skal inneholde all relevant historisk informasjon.

question mark

Tenk deg at agenten spiller et spill. Hvilket av disse er en god representasjon av miljøets tilstand i en MDP?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Markov Beslutningsprosess

Note
Definisjon

Markov beslutningsprosess (MDP) er et matematisk rammeverk som brukes til å modellere beslutningsproblemer der en agent samhandler med et miljø over tid.

Forsterkende læring blir ofte formulert som MDP-er, som gir en strukturert måte å definere problemet på. MDP-er beskriver miljøet ved hjelp av fire nøkkelkomponenter: tilstander, handlinger, overganger og belønninger. Disse komponentene fungerer sammen under Markov-egenskapen, som sikrer at fremtidig tilstand avhenger kun av nåværende tilstand og handling, ikke av tidligere tilstander.

De fire komponentene

Tilstand

Note
Definisjon

En tilstand ss er en representasjon av miljøet på et bestemt tidspunkt. Mengden av alle mulige tilstander kalles et tilstandsrom SS.

En tilstand representeres vanligvis av et sett med parametere som fanger opp relevante egenskaper ved miljøet. Disse parameterne kan inkludere ulike aspekter som posisjon, hastighet, rotasjon osv.

Handling

Note
Definisjon

En handling aa er en beslutning eller et trekk gjort av agenten for å påvirke miljøet. Mengden av alle mulige handlinger kalles et handlingsrom AA.

Mengden av mulige handlinger avhenger vanligvis av nåværende tilstand.

Overgang

Note
Definisjon

Overgang beskriver hvordan miljøets tilstand endres som respons på agentens handling. Overgangsfunksjonen pp angir sannsynligheten for å gå fra én tilstand til en annen, gitt en spesifikk handling.

I mange tilfeller kan miljøer være enten deterministiske eller stokastiske, noe som betyr at overgangen kan være forutsigbar eller innebære en viss grad av tilfeldighet.

Belønning

Note
Definisjon

En belønning rr er en numerisk verdi mottatt av agenten etter å ha utført en handling i en bestemt tilstand. Funksjonen som kartlegger overganger til forventede belønninger kalles belønningsfunksjonen RR.

Belønninger styrer agenten mot ønsket atferd, og kan være enten positive eller negative. Belønningsutforming er komplekst, ettersom agenten kan forsøke å utnytte belønningene.

Markov-egenskapen

Markov-egenskapen i en Markov beslutningsprosess sier at neste tilstand og belønning avhenger kun av nåværende tilstand og handling, ikke av tidligere informasjon. Dette sikrer en hukommelsesfri ramme, noe som forenkler læringsprosessen.

Matematisk kan denne egenskapen beskrives med følgende formel:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

hvor:

  • StS_t er en tilstand ved tid tt;
  • AtA_t er en handling utført ved tid tt;
  • RtR_t er en belønning ved tid tt.
Note
Merk

Den hukommelsesfrie naturen til MDP betyr ikke at tidligere observasjoner blir ignorert. Nåværende tilstand skal inneholde all relevant historisk informasjon.

question mark

Tenk deg at agenten spiller et spill. Hvilket av disse er en god representasjon av miljøets tilstand i en MDP?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 3
some-alt