Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Model, Politik og Værdier | RL Kerneprincipper
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Model, Politik og Værdier

Model

Note
Definition

En model er en repræsentation af miljøet, der definerer overgangssandsynlighederne mellem tilstande og de forventede belønninger for udførte handlinger.

Forstærkningslæringsalgoritmer kan opdeles i to kategorier:

  • Modelbaseret: I denne tilgang lærer agenten eller har adgang til en model af miljøet, hvilket gør det muligt at simulere fremtidige tilstande og belønninger, før handlinger udføres. Dette gør det muligt for agenten at planlægge og træffe mere informerede beslutninger;
  • Modelfri: I denne tilgang har agenten ikke en direkte model af miljøet. Den lærer udelukkende gennem interaktion med miljøet og benytter trial and error for at finde de bedste handlinger.

I praksis er miljøer med eksplicitte modeller sjældne, hvilket gør det vanskeligt for agenter at benytte modelbaserede strategier. Derfor er modelfrie tilgange blevet mere udbredte og grundigt studeret inden for forskning og anvendelse af forstærkningslæring.

Politik

Note
Definition

Politik π\pi er den strategi, en agent følger for at bestemme sine handlinger baseret på miljøets nuværende tilstand.

Der findes to typer af politikker:

  • Deterministisk politik: agenten vælger altid den samme handling for en given tilstand;
  • Stokastisk politik: agenten vælger handlinger baseret på sandsynlighedsfordelinger.

Under læringsprocessen er agentens mål at finde en optimal politik. En optimal politik er en, der maksimerer den forventede belønning, og guider agenten til at træffe de bedst mulige beslutninger i enhver given tilstand.

Værdifunktioner

Værdifunktioner er afgørende for at forstå, hvordan en agent vurderer potentialet af en bestemt tilstand eller tilstand-handlingspar. De bruges til at estimere fremtidige forventede belønninger, hvilket hjælper agenten med at træffe informerede beslutninger.

Tilstands-værdi funktion

Note
Definition

Tilstands-værdi funktion VV (eller vv) er en funktion, der angiver det forventede afkast ved at befinde sig i en bestemt tilstand og følge en specifik politik. Den hjælper med at vurdere tilstandes ønskværdighed.

Værdien af en tilstand kan udtrykkes matematisk således:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsværdifunktion

Note
Definition

Tilstands-handlingsværdifunktion QQ (eller qq) er en funktion, der angiver det forventede afkast ved at tage en bestemt handling i en givet tilstand og derefter følge en specifik politik. Den hjælper med at vurdere hensigtsmæssigheden af handlinger i tilstande.

Tilstands-handlingsværdifunktion kaldes ofte handlingsværdifunktion.

Værdien af en handling kan udtrykkes matematisk således:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellem model, politik og værdifunktioner

Begreberne model, politik og værdifunktioner er tæt forbundne og danner en omfattende ramme for kategorisering af RL-algoritmer. Denne ramme defineres af to primære akser:

  • Læringsmål: denne akse repræsenterer spektret af RL-algoritmer baseret på deres afhængighed af værdifunktioner, politikfunktioner eller en kombination af begge;
  • Modelanvendelse: denne akse adskiller algoritmer baseret på, om de anvender en model af miljøet eller udelukkende lærer gennem interaktion.

Ved at kombinere disse dimensioner kan vi klassificere RL-algoritmer i adskilte kategorier, hver med deres egne karakteristika og ideelle anvendelsestilfælde. Forståelse af disse relationer hjælper med at vælge den passende algoritme til specifikke opgaver og sikrer effektive lærings- og beslutningsprocesser.

question-icon

Udfyld de tomme felter

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 5

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Model, Politik og Værdier

Model

Note
Definition

En model er en repræsentation af miljøet, der definerer overgangssandsynlighederne mellem tilstande og de forventede belønninger for udførte handlinger.

Forstærkningslæringsalgoritmer kan opdeles i to kategorier:

  • Modelbaseret: I denne tilgang lærer agenten eller har adgang til en model af miljøet, hvilket gør det muligt at simulere fremtidige tilstande og belønninger, før handlinger udføres. Dette gør det muligt for agenten at planlægge og træffe mere informerede beslutninger;
  • Modelfri: I denne tilgang har agenten ikke en direkte model af miljøet. Den lærer udelukkende gennem interaktion med miljøet og benytter trial and error for at finde de bedste handlinger.

I praksis er miljøer med eksplicitte modeller sjældne, hvilket gør det vanskeligt for agenter at benytte modelbaserede strategier. Derfor er modelfrie tilgange blevet mere udbredte og grundigt studeret inden for forskning og anvendelse af forstærkningslæring.

Politik

Note
Definition

Politik π\pi er den strategi, en agent følger for at bestemme sine handlinger baseret på miljøets nuværende tilstand.

Der findes to typer af politikker:

  • Deterministisk politik: agenten vælger altid den samme handling for en given tilstand;
  • Stokastisk politik: agenten vælger handlinger baseret på sandsynlighedsfordelinger.

Under læringsprocessen er agentens mål at finde en optimal politik. En optimal politik er en, der maksimerer den forventede belønning, og guider agenten til at træffe de bedst mulige beslutninger i enhver given tilstand.

Værdifunktioner

Værdifunktioner er afgørende for at forstå, hvordan en agent vurderer potentialet af en bestemt tilstand eller tilstand-handlingspar. De bruges til at estimere fremtidige forventede belønninger, hvilket hjælper agenten med at træffe informerede beslutninger.

Tilstands-værdi funktion

Note
Definition

Tilstands-værdi funktion VV (eller vv) er en funktion, der angiver det forventede afkast ved at befinde sig i en bestemt tilstand og følge en specifik politik. Den hjælper med at vurdere tilstandes ønskværdighed.

Værdien af en tilstand kan udtrykkes matematisk således:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsværdifunktion

Note
Definition

Tilstands-handlingsværdifunktion QQ (eller qq) er en funktion, der angiver det forventede afkast ved at tage en bestemt handling i en givet tilstand og derefter følge en specifik politik. Den hjælper med at vurdere hensigtsmæssigheden af handlinger i tilstande.

Tilstands-handlingsværdifunktion kaldes ofte handlingsværdifunktion.

Værdien af en handling kan udtrykkes matematisk således:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellem model, politik og værdifunktioner

Begreberne model, politik og værdifunktioner er tæt forbundne og danner en omfattende ramme for kategorisering af RL-algoritmer. Denne ramme defineres af to primære akser:

  • Læringsmål: denne akse repræsenterer spektret af RL-algoritmer baseret på deres afhængighed af værdifunktioner, politikfunktioner eller en kombination af begge;
  • Modelanvendelse: denne akse adskiller algoritmer baseret på, om de anvender en model af miljøet eller udelukkende lærer gennem interaktion.

Ved at kombinere disse dimensioner kan vi klassificere RL-algoritmer i adskilte kategorier, hver med deres egne karakteristika og ideelle anvendelsestilfælde. Forståelse af disse relationer hjælper med at vælge den passende algoritme til specifikke opgaver og sikrer effektive lærings- og beslutningsprocesser.

question-icon

Udfyld de tomme felter

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 5
some-alt