Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Markovbeslutsprocess
Markovbeslutsprocess (MDP) är en matematisk ram som används för att modellera beslutsfattande problem där en agent interagerar med en miljö över tid.
Förstärkningsinlärningsproblem formuleras ofta som MDP:er, vilket ger ett strukturerat sätt att definiera problemet. MDP:er beskriver miljön med hjälp av fyra nyckelkomponenter: tillstånd, handlingar, övergångar och belöningar. Dessa komponenter samverkar enligt Markov-egenskapen, som säkerställer att framtida tillstånd beror endast på nuvarande tillstånd och handling, inte på tidigare tillstånd.
De fyra komponenterna
Tillstånd
Ett tillstånd är en representation av miljön vid en specifik tidpunkt. Mängden av alla möjliga tillstånd kallas för tillståndsrum .
Ett tillstånd representeras vanligtvis av en uppsättning parametrar som fångar de relevanta egenskaperna hos miljön. Dessa parametrar kan inkludera olika aspekter såsom position, hastighet, rotation, etc.
Åtgärd
En åtgärd är ett beslut eller ett drag som agenten gör för att påverka miljön. Mängden av alla möjliga åtgärder kallas för ett åtgärdsutrymme .
Mängden av möjliga åtgärder beror vanligtvis på nuvarande tillstånd.
Övergång
Övergång beskriver hur miljöns tillstånd förändras som svar på agentens handling. Övergångsfunktionen anger sannolikheten för att gå från ett tillstånd till ett annat, givet en specifik handling.
I många fall kan miljöer vara antingen deterministiska eller stokastiska, vilket innebär att övergången kan vara förutsägbar eller innefatta en viss grad av slumpmässighet.
Belöning
En belöning är ett numeriskt värde som tas emot av agenten efter att ha utfört en åtgärd i ett visst tillstånd. Funktionen som avbildar övergångar till förväntade belöningar kallas belöningsfunktionen .
Belöningar styr agenten mot önskvärt beteende och kan vara antingen positiva eller negativa. Belöningsdesign är komplext, eftersom agenten kan försöka utnyttja belöningarna.
Markov-egenskapen
Markov-egenskapen i en Markov-beslutsprocess innebär att nästa tillstånd och belöning beror endast på nuvarande tillstånd och handling, inte på tidigare information. Detta säkerställer en minneslös struktur, vilket förenklar inlärningsprocessen.
Matematiskt kan denna egenskap beskrivas med följande formel:
där:
- är ett tillstånd vid tidpunkt ;
- är en handling utförd vid tidpunkt ;
- är en belöning vid tidpunkt .
Den minneslösa naturen hos MDP innebär inte att tidigare observationer ignoreras. Nuvarande tillstånd bör koda all relevant historisk information.
Tack för dina kommentarer!