Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Modell, Policy og Verdier | RL Kjerne­teori
Introduksjon til forsterkningslæring

bookModell, Policy og Verdier

Modell

Note
Definisjon

En modell er en representasjon av miljøet som definerer overgangssannsynligheter mellom tilstander og forventede belønninger for utførte handlinger.

Forsterkningslæringsalgoritmer kan deles inn i to kategorier:

  • Modellbasert: I denne tilnærmingen lærer agenten eller har tilgang til en modell av miljøet, noe som gjør det mulig å simulere fremtidige tilstander og belønninger før handlinger utføres. Dette gjør det mulig for agenten å planlegge og ta mer informerte beslutninger;
  • Modellfri: I denne tilnærmingen har ikke agenten en direkte modell av miljøet. Den lærer utelukkende gjennom interaksjon med miljøet, og er avhengig av prøving og feiling for å finne de beste handlingene.

I praksis er miljøer med eksplisitte modeller uvanlige, noe som gjør det vanskelig for agenter å benytte modellbaserte strategier. Som et resultat har modelfrie tilnærminger blitt mer utbredt og grundig studert innen forskning og anvendelser av forsterkningslæring.

Politikk

Note
Definisjon

Politikk π\pi er strategien en agent følger for å bestemme sine handlinger basert på nåværende tilstand i miljøet.

Det finnes to typer politikk:

  • Deterministisk politikk: agenten velger alltid den samme handlingen for en gitt tilstand;
  • Stokastisk politikk: agenten velger handlinger basert på sannsynlighetsfordelinger.

Under læringsprosessen er agentens mål å finne en optimal policy. En optimal policy er en som maksimerer den forventede avkastningen, og veileder agenten til å ta de best mulige beslutningene i enhver gitt tilstand.

Verdifunksjoner

Verdifunksjoner er avgjørende for å forstå hvordan en agent vurderer potensialet til en bestemt tilstand eller tilstand-handlingspar. De brukes til å estimere fremtidige forventede belønninger, og hjelper agenten med å ta informerte beslutninger.

Tilstandsverdifunksjon

Note
Definisjon

Tilstandsverdifunksjon VV (eller vv) er en funksjon som gir forventet avkastning ved å være i en spesifikk tilstand og følge en bestemt policy. Den hjelper med å evaluere hvor ønskelige tilstandene er.

Verdien til en tilstand kan uttrykkes matematisk slik:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsverdifunksjon

Note
Definisjon

Tilstands-handlingsverdifunksjon QQ (eller qq) er en funksjon som gir den forventede avkastningen av å utføre en spesifikk handling i en gitt tilstand og deretter følge en spesifikk policy. Den hjelper med å vurdere hvor ønskelige handlinger er i ulike tilstander.

Tilstands-handlingsverdifunksjon kalles ofte handlingsverdifunksjon.

Verdien av en handling kan uttrykkes matematisk slik:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellom modell, policy og verdifunksjoner

Begrepene modell, policy og verdifunksjoner er nært knyttet sammen og danner et omfattende rammeverk for kategorisering av RL-algoritmer. Dette rammeverket defineres av to hovedakser:

  • Læringsmål: denne aksen representerer spekteret av RL-algoritmer basert på deres avhengighet av verdifunksjoner, policy-funksjoner eller en kombinasjon av begge;
  • Modellbruk: denne aksen skiller algoritmer basert på om de benytter en modell av miljøet eller kun lærer gjennom interaksjon.

Ved å kombinere disse dimensjonene kan vi klassifisere RL-algoritmer i distinkte kategorier, hver med sine egne egenskaper og ideelle bruksområder. Å forstå disse sammenhengene hjelper med å velge riktig algoritme for spesifikke oppgaver, og sikrer effektiv læring og beslutningsprosesser.

question-icon

Fyll inn de tomme feltene

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 2.7

bookModell, Policy og Verdier

Sveip for å vise menyen

Modell

Note
Definisjon

En modell er en representasjon av miljøet som definerer overgangssannsynligheter mellom tilstander og forventede belønninger for utførte handlinger.

Forsterkningslæringsalgoritmer kan deles inn i to kategorier:

  • Modellbasert: I denne tilnærmingen lærer agenten eller har tilgang til en modell av miljøet, noe som gjør det mulig å simulere fremtidige tilstander og belønninger før handlinger utføres. Dette gjør det mulig for agenten å planlegge og ta mer informerte beslutninger;
  • Modellfri: I denne tilnærmingen har ikke agenten en direkte modell av miljøet. Den lærer utelukkende gjennom interaksjon med miljøet, og er avhengig av prøving og feiling for å finne de beste handlingene.

I praksis er miljøer med eksplisitte modeller uvanlige, noe som gjør det vanskelig for agenter å benytte modellbaserte strategier. Som et resultat har modelfrie tilnærminger blitt mer utbredt og grundig studert innen forskning og anvendelser av forsterkningslæring.

Politikk

Note
Definisjon

Politikk π\pi er strategien en agent følger for å bestemme sine handlinger basert på nåværende tilstand i miljøet.

Det finnes to typer politikk:

  • Deterministisk politikk: agenten velger alltid den samme handlingen for en gitt tilstand;
  • Stokastisk politikk: agenten velger handlinger basert på sannsynlighetsfordelinger.

Under læringsprosessen er agentens mål å finne en optimal policy. En optimal policy er en som maksimerer den forventede avkastningen, og veileder agenten til å ta de best mulige beslutningene i enhver gitt tilstand.

Verdifunksjoner

Verdifunksjoner er avgjørende for å forstå hvordan en agent vurderer potensialet til en bestemt tilstand eller tilstand-handlingspar. De brukes til å estimere fremtidige forventede belønninger, og hjelper agenten med å ta informerte beslutninger.

Tilstandsverdifunksjon

Note
Definisjon

Tilstandsverdifunksjon VV (eller vv) er en funksjon som gir forventet avkastning ved å være i en spesifikk tilstand og følge en bestemt policy. Den hjelper med å evaluere hvor ønskelige tilstandene er.

Verdien til en tilstand kan uttrykkes matematisk slik:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsverdifunksjon

Note
Definisjon

Tilstands-handlingsverdifunksjon QQ (eller qq) er en funksjon som gir den forventede avkastningen av å utføre en spesifikk handling i en gitt tilstand og deretter følge en spesifikk policy. Den hjelper med å vurdere hvor ønskelige handlinger er i ulike tilstander.

Tilstands-handlingsverdifunksjon kalles ofte handlingsverdifunksjon.

Verdien av en handling kan uttrykkes matematisk slik:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellom modell, policy og verdifunksjoner

Begrepene modell, policy og verdifunksjoner er nært knyttet sammen og danner et omfattende rammeverk for kategorisering av RL-algoritmer. Dette rammeverket defineres av to hovedakser:

  • Læringsmål: denne aksen representerer spekteret av RL-algoritmer basert på deres avhengighet av verdifunksjoner, policy-funksjoner eller en kombinasjon av begge;
  • Modellbruk: denne aksen skiller algoritmer basert på om de benytter en modell av miljøet eller kun lærer gjennom interaksjon.

Ved å kombinere disse dimensjonene kan vi klassifisere RL-algoritmer i distinkte kategorier, hver med sine egne egenskaper og ideelle bruksområder. Å forstå disse sammenhengene hjelper med å velge riktig algoritme for spesifikke oppgaver, og sikrer effektiv læring og beslutningsprosesser.

question-icon

Fyll inn de tomme feltene

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5
some-alt