Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Modell, Policy och Värden | RL Kärnteori
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Modell, Policy och Värden

Modell

Note
Definition

En modell är en representation av miljön som definierar övergångssannolikheter mellan tillstånd och de förväntade belöningarna för vidtagna åtgärder.

Förstärkningsinlärningsalgoritmer kan delas in i två kategorier:

  • Modellbaserade: i detta tillvägagångssätt lär sig agenten eller har tillgång till en modell av miljön, vilket gör det möjligt att simulera framtida tillstånd och belöningar innan åtgärder vidtas. Detta gör det möjligt för agenten att planera och fatta mer informerade beslut;
  • Modellfria: i detta tillvägagångssätt har agenten ingen direkt modell av miljön. Den lär sig enbart genom interaktion med miljön och förlitar sig på försök och misstag för att upptäcka de bästa åtgärderna.

I praktiken är miljöer med explicita modeller ovanliga, vilket gör det svårt för agenter att förlita sig på modellbaserade strategier. Som ett resultat har modellfria tillvägagångssätt blivit mer förekommande och är omfattande studerade inom forskning och tillämpningar av förstärkningsinlärning.

Policy

Note
Definition

Policy π\pi är den strategi som en agent följer för att bestämma sina handlingar baserat på miljöns aktuella tillstånd.

Det finns två typer av policies:

  • Deterministisk policy: agenten väljer alltid samma handling för ett givet tillstånd;
  • Stokastisk policy: agenten väljer handlingar baserat på sannolikhetsfördelningar.

Under inlärningsprocessen är agentens mål att hitta en optimal policy. En optimal policy är en som maximerar den förväntade avkastningen och vägleder agenten att fatta de bästa möjliga besluten i varje givet tillstånd.

Värdefunktioner

Värdefunktioner är avgörande för att förstå hur en agent utvärderar potentialen hos ett visst tillstånd eller tillstånd-handlingspar. De används för att uppskatta framtida förväntade belöningar, vilket hjälper agenten att fatta välgrundade beslut.

Tillståndsvärdesfunktion

Note
Definition

Tillståndsvärdesfunktion VV (eller vv) är en funktion som anger det förväntade utfallet av att befinna sig i ett specifikt tillstånd och följa en given policy. Den används för att utvärdera önskvärdheten hos tillstånd.

Värdet av ett tillstånd kan uttryckas matematiskt så här:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tillstånd-handlingsvärdefunktion

Note
Definition

Tillstånd-handlingsvärdefunktion QQ (eller qq) är en funktion som anger det förväntade utfallet av att utföra en specifik handling i ett givet tillstånd och därefter följa en specifik policy. Den används för att utvärdera önskvärdheten av handlingar i olika tillstånd.

Tillstånd-handlingsvärdefunktion kallas ofta för handlingsvärdefunktion.

Värdet av en handling kan uttryckas matematiskt så här:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Samband mellan modell, policy och värdefunktioner

Begreppen modell, policy och värdefunktioner är nära sammankopplade och bildar en omfattande ram för att kategorisera RL-algoritmer. Denna ram definieras av två huvudsakliga axlar:

  • Inlärningsmål: denna axel representerar spektrumet av RL-algoritmer baserat på deras beroende av värdefunktioner, policyfunktioner eller en kombination av båda;
  • Modellanvändning: denna axel särskiljer algoritmer baserat på om de använder en modell av miljön eller lär sig enbart genom interaktion.

Genom att kombinera dessa dimensioner kan vi klassificera RL-algoritmer i distinkta kategorier, var och en med sina egna egenskaper och ideala användningsområden. Att förstå dessa samband hjälper till att välja rätt algoritm för specifika uppgifter och säkerställer effektiva inlärnings- och beslutsprocesser.

question-icon

Fyll i luckorna

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 5

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Modell, Policy och Värden

Modell

Note
Definition

En modell är en representation av miljön som definierar övergångssannolikheter mellan tillstånd och de förväntade belöningarna för vidtagna åtgärder.

Förstärkningsinlärningsalgoritmer kan delas in i två kategorier:

  • Modellbaserade: i detta tillvägagångssätt lär sig agenten eller har tillgång till en modell av miljön, vilket gör det möjligt att simulera framtida tillstånd och belöningar innan åtgärder vidtas. Detta gör det möjligt för agenten att planera och fatta mer informerade beslut;
  • Modellfria: i detta tillvägagångssätt har agenten ingen direkt modell av miljön. Den lär sig enbart genom interaktion med miljön och förlitar sig på försök och misstag för att upptäcka de bästa åtgärderna.

I praktiken är miljöer med explicita modeller ovanliga, vilket gör det svårt för agenter att förlita sig på modellbaserade strategier. Som ett resultat har modellfria tillvägagångssätt blivit mer förekommande och är omfattande studerade inom forskning och tillämpningar av förstärkningsinlärning.

Policy

Note
Definition

Policy π\pi är den strategi som en agent följer för att bestämma sina handlingar baserat på miljöns aktuella tillstånd.

Det finns två typer av policies:

  • Deterministisk policy: agenten väljer alltid samma handling för ett givet tillstånd;
  • Stokastisk policy: agenten väljer handlingar baserat på sannolikhetsfördelningar.

Under inlärningsprocessen är agentens mål att hitta en optimal policy. En optimal policy är en som maximerar den förväntade avkastningen och vägleder agenten att fatta de bästa möjliga besluten i varje givet tillstånd.

Värdefunktioner

Värdefunktioner är avgörande för att förstå hur en agent utvärderar potentialen hos ett visst tillstånd eller tillstånd-handlingspar. De används för att uppskatta framtida förväntade belöningar, vilket hjälper agenten att fatta välgrundade beslut.

Tillståndsvärdesfunktion

Note
Definition

Tillståndsvärdesfunktion VV (eller vv) är en funktion som anger det förväntade utfallet av att befinna sig i ett specifikt tillstånd och följa en given policy. Den används för att utvärdera önskvärdheten hos tillstånd.

Värdet av ett tillstånd kan uttryckas matematiskt så här:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tillstånd-handlingsvärdefunktion

Note
Definition

Tillstånd-handlingsvärdefunktion QQ (eller qq) är en funktion som anger det förväntade utfallet av att utföra en specifik handling i ett givet tillstånd och därefter följa en specifik policy. Den används för att utvärdera önskvärdheten av handlingar i olika tillstånd.

Tillstånd-handlingsvärdefunktion kallas ofta för handlingsvärdefunktion.

Värdet av en handling kan uttryckas matematiskt så här:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Samband mellan modell, policy och värdefunktioner

Begreppen modell, policy och värdefunktioner är nära sammankopplade och bildar en omfattande ram för att kategorisera RL-algoritmer. Denna ram definieras av två huvudsakliga axlar:

  • Inlärningsmål: denna axel representerar spektrumet av RL-algoritmer baserat på deras beroende av värdefunktioner, policyfunktioner eller en kombination av båda;
  • Modellanvändning: denna axel särskiljer algoritmer baserat på om de använder en modell av miljön eller lär sig enbart genom interaktion.

Genom att kombinera dessa dimensioner kan vi klassificera RL-algoritmer i distinkta kategorier, var och en med sina egna egenskaper och ideala användningsområden. Att förstå dessa samband hjälper till att välja rätt algoritm för specifika uppgifter och säkerställer effektiva inlärnings- och beslutsprocesser.

question-icon

Fyll i luckorna

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 5
some-alt