Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Episoder och Belöningar
Uppgiftens längd
RL-uppgifter kategoriseras vanligtvis som episodiska eller kontinuerliga, beroende på hur inlärningsprocessen är strukturerad över tid.
Episod är en fullständig sekvens av interaktioner mellan agenten och miljön, som börjar från ett initialt tillstånd och fortskrider genom en serie övergångar tills ett terminalt tillstånd uppnås.
Episodiska uppgifter är sådana som består av en ändlig sekvens av tillstånd, handlingar och belöningar, där agentens interaktion med miljön är uppdelad i särskilda episoder.
Till skillnad från detta har kontinuerliga uppgifter ingen tydlig slutpunkt för varje interaktionscykel. Agenten interagerar kontinuerligt med miljön utan att återställas till ett initialt tillstånd, och inlärningsprocessen pågår fortlöpande, ofta utan en tydlig terminalpunkt.
Avkastning
Du vet redan att agentens huvudsakliga mål är att maximera ackumulerade belöningar. Medan belöningsfunktionen ger omedelbara belöningar, tar den inte hänsyn till framtida utfall, vilket kan vara problematiskt. En agent som tränas enbart för att maximera omedelbara belöningar kan förbise långsiktiga fördelar. För att hantera detta introducerar vi begreppet avkastning.
Avkastning är den totala ackumulerade belöningen som en agent erhåller från ett givet tillstånd och framåt, vilket inkluderar alla belöningar den kommer att få i framtiden, inte bara omedelbart.
Avkastningen är en bättre representation av hur bra ett visst tillstånd eller en viss handling är på lång sikt. Målet med förstärkningsinlärning kan nu definieras som att maximera avkastningen.
Om är det sista tidssteget, ser formeln för avkastning ut så här:
Diskontering
Medan enkel avkastning fungerar som ett bra mål i episodiska uppgifter, uppstår ett problem i kontinuerliga uppgifter. Om antalet tidssteg är oändligt, kan avkastningen själv bli oändlig. För att hantera detta används en diskonteringsfaktor för att säkerställa att framtida belöningar ges mindre vikt, vilket förhindrar att avkastningen blir oändlig.
Diskonteringsfaktor är en multiplikativ faktor som används för att bestämma nuvärdet av framtida belöningar. Den varierar mellan 0 och 1, där ett värde närmare 0 får agenten att prioritera omedelbara belöningar, medan ett värde närmare 1 gör att agenten tar större hänsyn till framtida belöningar.
Return kombinerad med en diskonteringsfaktor kallas diskonterad return.
Formeln för diskonterad return ser ut så här:
Även i episodiska uppgifter ger användningen av en diskonteringsfaktor praktiska fördelar: det motiverar agenten att nå sitt mål så snabbt som möjligt, vilket leder till mer effektivt beteende. Av denna anledning tillämpas diskontering ofta även i tydligt episodiska sammanhang.
Tack för dina kommentarer!