Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Markovbeslutsprocess | RL Kärnteori
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Markovbeslutsprocess

Note
Definition

Markovbeslutsprocess (MDP) är en matematisk ram som används för att modellera beslutsfattande problem där en agent interagerar med en miljö över tid.

Förstärkningsinlärningsproblem formuleras ofta som MDP:er, vilket ger ett strukturerat sätt att definiera problemet. MDP:er beskriver miljön med hjälp av fyra nyckelkomponenter: tillstånd, handlingar, övergångar och belöningar. Dessa komponenter samverkar enligt Markov-egenskapen, som säkerställer att framtida tillstånd beror endastnuvarande tillstånd och handling, inte på tidigare tillstånd.

De fyra komponenterna

Tillstånd

Note
Definition

Ett tillstånd ss är en representation av miljön vid en specifik tidpunkt. Mängden av alla möjliga tillstånd kallas för tillståndsrum SS.

Ett tillstånd representeras vanligtvis av en uppsättning parametrar som fångar de relevanta egenskaperna hos miljön. Dessa parametrar kan inkludera olika aspekter såsom position, hastighet, rotation, etc.

Åtgärd

Note
Definition

En åtgärd aa är ett beslut eller ett drag som agenten gör för att påverka miljön. Mängden av alla möjliga åtgärder kallas för ett åtgärdsutrymme AA.

Mängden av möjliga åtgärder beror vanligtvis på nuvarande tillstånd.

Övergång

Note
Definition

Övergång beskriver hur miljöns tillstånd förändras som svar på agentens handling. Övergångsfunktionen pp anger sannolikheten för att gå från ett tillstånd till ett annat, givet en specifik handling.

I många fall kan miljöer vara antingen deterministiska eller stokastiska, vilket innebär att övergången kan vara förutsägbar eller innefatta en viss grad av slumpmässighet.

Belöning

Note
Definition

En belöning rr är ett numeriskt värde som tas emot av agenten efter att ha utfört en åtgärd i ett visst tillstånd. Funktionen som avbildar övergångar till förväntade belöningar kallas belöningsfunktionen RR.

Belöningar styr agenten mot önskvärt beteende och kan vara antingen positiva eller negativa. Belöningsdesign är komplext, eftersom agenten kan försöka utnyttja belöningarna.

Markov-egenskapen

Markov-egenskapen i en Markov-beslutsprocess innebär att nästa tillstånd och belöning beror endastnuvarande tillstånd och handling, inte på tidigare information. Detta säkerställer en minneslös struktur, vilket förenklar inlärningsprocessen.

Matematiskt kan denna egenskap beskrivas med följande formel:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

där:

  • StS_t är ett tillstånd vid tidpunkt tt;
  • AtA_t är en handling utförd vid tidpunkt tt;
  • RtR_t är en belöning vid tidpunkt tt.
Note
Notera

Den minneslösa naturen hos MDP innebär inte att tidigare observationer ignoreras. Nuvarande tillstånd bör koda all relevant historisk information.

question mark

Föreställ dig att agenten spelar ett spel. Vilket av dessa är en bra representation av miljöns tillstånd i en MDP?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 3

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Markovbeslutsprocess

Note
Definition

Markovbeslutsprocess (MDP) är en matematisk ram som används för att modellera beslutsfattande problem där en agent interagerar med en miljö över tid.

Förstärkningsinlärningsproblem formuleras ofta som MDP:er, vilket ger ett strukturerat sätt att definiera problemet. MDP:er beskriver miljön med hjälp av fyra nyckelkomponenter: tillstånd, handlingar, övergångar och belöningar. Dessa komponenter samverkar enligt Markov-egenskapen, som säkerställer att framtida tillstånd beror endastnuvarande tillstånd och handling, inte på tidigare tillstånd.

De fyra komponenterna

Tillstånd

Note
Definition

Ett tillstånd ss är en representation av miljön vid en specifik tidpunkt. Mängden av alla möjliga tillstånd kallas för tillståndsrum SS.

Ett tillstånd representeras vanligtvis av en uppsättning parametrar som fångar de relevanta egenskaperna hos miljön. Dessa parametrar kan inkludera olika aspekter såsom position, hastighet, rotation, etc.

Åtgärd

Note
Definition

En åtgärd aa är ett beslut eller ett drag som agenten gör för att påverka miljön. Mängden av alla möjliga åtgärder kallas för ett åtgärdsutrymme AA.

Mängden av möjliga åtgärder beror vanligtvis på nuvarande tillstånd.

Övergång

Note
Definition

Övergång beskriver hur miljöns tillstånd förändras som svar på agentens handling. Övergångsfunktionen pp anger sannolikheten för att gå från ett tillstånd till ett annat, givet en specifik handling.

I många fall kan miljöer vara antingen deterministiska eller stokastiska, vilket innebär att övergången kan vara förutsägbar eller innefatta en viss grad av slumpmässighet.

Belöning

Note
Definition

En belöning rr är ett numeriskt värde som tas emot av agenten efter att ha utfört en åtgärd i ett visst tillstånd. Funktionen som avbildar övergångar till förväntade belöningar kallas belöningsfunktionen RR.

Belöningar styr agenten mot önskvärt beteende och kan vara antingen positiva eller negativa. Belöningsdesign är komplext, eftersom agenten kan försöka utnyttja belöningarna.

Markov-egenskapen

Markov-egenskapen i en Markov-beslutsprocess innebär att nästa tillstånd och belöning beror endastnuvarande tillstånd och handling, inte på tidigare information. Detta säkerställer en minneslös struktur, vilket förenklar inlärningsprocessen.

Matematiskt kan denna egenskap beskrivas med följande formel:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

där:

  • StS_t är ett tillstånd vid tidpunkt tt;
  • AtA_t är en handling utförd vid tidpunkt tt;
  • RtR_t är en belöning vid tidpunkt tt.
Note
Notera

Den minneslösa naturen hos MDP innebär inte att tidigare observationer ignoreras. Nuvarande tillstånd bör koda all relevant historisk information.

question mark

Föreställ dig att agenten spelar ett spel. Vilket av dessa är en bra representation av miljöns tillstånd i en MDP?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 3
some-alt