Lära Modell, Policy och Värden

Modell

Definition

En modell är en representation av miljön som definierar övergångssannolikheter mellan tillstånd och de förväntade belöningarna för utförda handlingar.

Förstärkningsinlärningsalgoritmer kan delas in i två kategorier:

Modellbaserade: i detta tillvägagångssätt lär sig agenten eller har tillgång till en modell av miljön, vilket gör det möjligt att simulera framtida tillstånd och belöningar innan handlingar utförs. Detta möjliggör planering och mer informerade beslut;
Modellfria: i detta tillvägagångssätt har agenten ingen direkt modell av miljön. Den lär sig enbart genom interaktion med miljön och förlitar sig på försök och misstag för att upptäcka de bästa handlingarna.

I praktiken är miljöer med explicita modeller ovanliga, vilket gör det svårt för agenter att förlita sig på modellbaserade strategier. Därför har modelfria tillvägagångssätt blivit vanligare och är omfattande studerade inom forskning och tillämpningar av förstärkningsinlärning.

Policy

Definition

Policy $\pi$ är den strategi som en agent följer för att bestämma sina åtgärder baserat på nuvarande tillstånd i miljön.

Det finns två typer av policies:

Deterministisk policy: agenten väljer alltid samma åtgärd för ett givet tillstånd;
Stokastisk policy: agenten väljer åtgärder baserat på sannolikhetsfördelningar.

Under inlärningsprocessen är agentens mål att hitta en optimal policy. En optimal policy är en som maximerar den förväntade avkastningen och vägleder agenten att fatta de bästa möjliga besluten i varje givet tillstånd.

Värdefunktioner

Värdefunktioner är avgörande för att förstå hur en agent utvärderar potentialen hos ett visst tillstånd eller tillstånd-handlingspar. De används för att uppskatta framtida förväntade belöningar och hjälper agenten att fatta välgrundade beslut.

Tillståndsvärdesfunktion

Definition

Tillståndsvärdesfunktion $V$ (eller $v$ ) är en funktion som anger det förväntade utfallet av att befinna sig i ett specifikt tillstånd och följa en given policy. Den används för att utvärdera önskvärdheten hos tillstånd.

Värdet av ett tillstånd kan uttryckas matematiskt så här:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tillstånd-handlingsvärdefunktion

Definition

Tillstånd-handlingsvärdefunktion $Q$ (eller $q$ ) är en funktion som anger det förväntade utfallet av att utföra en specifik handling i ett givet tillstånd och därefter följa en specifik policy. Den används för att utvärdera önskvärdheten av handlingar i olika tillstånd.

Tillstånd-handlingsvärdefunktion kallas ofta för handlingsvärdefunktion.

Värdet av en handling kan uttryckas matematiskt på följande sätt:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Samband mellan modell, policy och värdefunktioner

Begreppen modell, policy och värdefunktioner är nära sammankopplade och utgör ett omfattande ramverk för att kategorisera RL-algoritmer. Detta ramverk definieras av två huvudsakliga axlar:

Inlärningsmål: denna axel representerar spektrumet av RL-algoritmer baserat på deras beroende av värdefunktioner, policyfunktioner eller en kombination av båda;
Modellanvändning: denna axel särskiljer algoritmer baserat på om de använder en modell av miljön eller enbart lär sig genom interaktion.

Genom att kombinera dessa dimensioner kan vi klassificera RL-algoritmer i distinkta kategorier, var och en med sina egna egenskaper och ideala användningsområden. Att förstå dessa samband hjälper till att välja lämplig algoritm för specifika uppgifter och säkerställer effektiva inlärnings- och beslutsprocesser.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 5

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain the difference between model-based and model-free reinforcement learning in more detail?

What is the significance of value functions in reinforcement learning?

How do deterministic and stochastic policies affect an agent's behavior?

Svep för att visa menyn

Modell

Definition

En modell är en representation av miljön som definierar övergångssannolikheter mellan tillstånd och de förväntade belöningarna för utförda handlingar.

Förstärkningsinlärningsalgoritmer kan delas in i två kategorier:

Modellbaserade: i detta tillvägagångssätt lär sig agenten eller har tillgång till en modell av miljön, vilket gör det möjligt att simulera framtida tillstånd och belöningar innan handlingar utförs. Detta möjliggör planering och mer informerade beslut;
Modellfria: i detta tillvägagångssätt har agenten ingen direkt modell av miljön. Den lär sig enbart genom interaktion med miljön och förlitar sig på försök och misstag för att upptäcka de bästa handlingarna.

Policy

Definition

Policy $\pi$ är den strategi som en agent följer för att bestämma sina åtgärder baserat på nuvarande tillstånd i miljön.

Det finns två typer av policies:

Deterministisk policy: agenten väljer alltid samma åtgärd för ett givet tillstånd;
Stokastisk policy: agenten väljer åtgärder baserat på sannolikhetsfördelningar.

Värdefunktioner

Tillståndsvärdesfunktion

Definition

Värdet av ett tillstånd kan uttryckas matematiskt så här:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tillstånd-handlingsvärdefunktion

Definition

Tillstånd-handlingsvärdefunktion kallas ofta för handlingsvärdefunktion.

Värdet av en handling kan uttryckas matematiskt på följande sätt:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Samband mellan modell, policy och värdefunktioner

Inlärningsmål: denna axel representerar spektrumet av RL-algoritmer baserat på deras beroende av värdefunktioner, policyfunktioner eller en kombination av båda;
Modellanvändning: denna axel särskiljer algoritmer baserat på om de använder en modell av miljön eller enbart lär sig genom interaktion.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 5