Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Modell, policy og verdier | Kjerneprinsipper i RL
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Modell, policy og verdier

Modell

Note
Definisjon

En modell er en representasjon av miljøet som definerer overgangssannsynlighetene mellom tilstander og de forventede belønningene for utførte handlinger.

Forsterkningslæringsalgoritmer kan deles inn i to kategorier:

  • Modellbasert: I denne tilnærmingen lærer agenten eller har tilgang til en modell av miljøet, noe som gjør det mulig å simulere fremtidige tilstander og belønninger før handlinger utføres. Dette gjør det mulig for agenten å planlegge og ta mer informerte beslutninger;
  • Modellfri: I denne tilnærmingen har ikke agenten en direkte modell av miljøet. Den lærer utelukkende gjennom interaksjon med miljøet, og er avhengig av prøving og feiling for å finne de beste handlingene.

I praksis er miljøer med eksplisitte modeller sjeldne, noe som gjør det vanskelig for agenter å basere seg på modellbaserte strategier. Som et resultat har modelfrie tilnærminger blitt mer utbredt og grundig studert innen forskning og anvendelser av forsterkningslæring.

Policy

Note
Definisjon

Policy π\pi er strategien en agent følger for å bestemme sine handlinger basert på nåværende tilstand i miljøet.

Det finnes to typer policyer:

  • Deterministisk policy: agenten velger alltid den samme handlingen for en gitt tilstand;
  • Stokastisk policy: agenten velger handlinger basert på sannsynlighetsfordelinger.

Under læringsprosessen er agentens mål å finne en optimal policy. En optimal policy er en som maksimerer den forventede avkastningen, og veileder agenten til å ta de best mulige beslutningene i enhver gitt tilstand.

Verdi-funksjoner

Verdi-funksjoner er avgjørende for å forstå hvordan en agent vurderer potensialet til en bestemt tilstand eller tilstand-handlingspar. De brukes til å estimere fremtidige forventede belønninger, og hjelper agenten med å ta informerte beslutninger.

Tilstandsverdifunksjon

Note
Definisjon

Tilstandsverdifunksjon VV (eller vv) er en funksjon som gir forventet avkastning ved å være i en spesifikk tilstand og følge en spesiell policy. Den hjelper med å evaluere hvor ønskelige tilstandene er.

Verdien av en tilstand kan uttrykkes matematisk slik:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsverdi-funksjon

Note
Definisjon

Tilstands-handlingsverdi-funksjon QQ (eller qq) er en funksjon som gir den forventede avkastningen ved å ta en spesifikk handling i en gitt tilstand og deretter følge en spesiell policy. Den hjelper med å vurdere hvor ønskelige handlingene er i ulike tilstander.

Tilstands-handlingsverdi-funksjon kalles ofte handlingsverdi-funksjon.

Verdien av en handling kan uttrykkes matematisk slik:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellom modell, policy og verdifunksjoner

Begrepene modell, policy og verdifunksjoner er tett sammenknyttet, og danner et omfattende rammeverk for kategorisering av RL-algoritmer. Dette rammeverket defineres av to hovedakser:

  • Læringsmål: denne aksen representerer spekteret av RL-algoritmer basert på deres avhengighet av verdifunksjoner, policy-funksjoner eller en kombinasjon av begge;
  • Modellbruk: denne aksen skiller algoritmer basert på om de benytter en modell av miljøet eller kun lærer gjennom interaksjon.

Ved å kombinere disse dimensjonene kan vi klassifisere RL-algoritmer i ulike kategorier, hver med sine egne egenskaper og ideelle bruksområder. Å forstå disse sammenhengene hjelper med å velge riktig algoritme for spesifikke oppgaver, og sikrer effektiv læring og beslutningsprosesser.

question-icon

Fyll inn de tomme feltene

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Modell, policy og verdier

Modell

Note
Definisjon

En modell er en representasjon av miljøet som definerer overgangssannsynlighetene mellom tilstander og de forventede belønningene for utførte handlinger.

Forsterkningslæringsalgoritmer kan deles inn i to kategorier:

  • Modellbasert: I denne tilnærmingen lærer agenten eller har tilgang til en modell av miljøet, noe som gjør det mulig å simulere fremtidige tilstander og belønninger før handlinger utføres. Dette gjør det mulig for agenten å planlegge og ta mer informerte beslutninger;
  • Modellfri: I denne tilnærmingen har ikke agenten en direkte modell av miljøet. Den lærer utelukkende gjennom interaksjon med miljøet, og er avhengig av prøving og feiling for å finne de beste handlingene.

I praksis er miljøer med eksplisitte modeller sjeldne, noe som gjør det vanskelig for agenter å basere seg på modellbaserte strategier. Som et resultat har modelfrie tilnærminger blitt mer utbredt og grundig studert innen forskning og anvendelser av forsterkningslæring.

Policy

Note
Definisjon

Policy π\pi er strategien en agent følger for å bestemme sine handlinger basert på nåværende tilstand i miljøet.

Det finnes to typer policyer:

  • Deterministisk policy: agenten velger alltid den samme handlingen for en gitt tilstand;
  • Stokastisk policy: agenten velger handlinger basert på sannsynlighetsfordelinger.

Under læringsprosessen er agentens mål å finne en optimal policy. En optimal policy er en som maksimerer den forventede avkastningen, og veileder agenten til å ta de best mulige beslutningene i enhver gitt tilstand.

Verdi-funksjoner

Verdi-funksjoner er avgjørende for å forstå hvordan en agent vurderer potensialet til en bestemt tilstand eller tilstand-handlingspar. De brukes til å estimere fremtidige forventede belønninger, og hjelper agenten med å ta informerte beslutninger.

Tilstandsverdifunksjon

Note
Definisjon

Tilstandsverdifunksjon VV (eller vv) er en funksjon som gir forventet avkastning ved å være i en spesifikk tilstand og følge en spesiell policy. Den hjelper med å evaluere hvor ønskelige tilstandene er.

Verdien av en tilstand kan uttrykkes matematisk slik:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsverdi-funksjon

Note
Definisjon

Tilstands-handlingsverdi-funksjon QQ (eller qq) er en funksjon som gir den forventede avkastningen ved å ta en spesifikk handling i en gitt tilstand og deretter følge en spesiell policy. Den hjelper med å vurdere hvor ønskelige handlingene er i ulike tilstander.

Tilstands-handlingsverdi-funksjon kalles ofte handlingsverdi-funksjon.

Verdien av en handling kan uttrykkes matematisk slik:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellom modell, policy og verdifunksjoner

Begrepene modell, policy og verdifunksjoner er tett sammenknyttet, og danner et omfattende rammeverk for kategorisering av RL-algoritmer. Dette rammeverket defineres av to hovedakser:

  • Læringsmål: denne aksen representerer spekteret av RL-algoritmer basert på deres avhengighet av verdifunksjoner, policy-funksjoner eller en kombinasjon av begge;
  • Modellbruk: denne aksen skiller algoritmer basert på om de benytter en modell av miljøet eller kun lærer gjennom interaksjon.

Ved å kombinere disse dimensjonene kan vi klassifisere RL-algoritmer i ulike kategorier, hver med sine egne egenskaper og ideelle bruksområder. Å forstå disse sammenhengene hjelper med å velge riktig algoritme for spesifikke oppgaver, og sikrer effektiv læring og beslutningsprosesser.

question-icon

Fyll inn de tomme feltene

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5
some-alt