Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Modell, Policy och Värden
Modell
En modell är en representation av miljön som definierar övergångssannolikheter mellan tillstånd och de förväntade belöningarna för vidtagna åtgärder.
Förstärkningsinlärningsalgoritmer kan delas in i två kategorier:
- Modellbaserade: i detta tillvägagångssätt lär sig agenten eller har tillgång till en modell av miljön, vilket gör det möjligt att simulera framtida tillstånd och belöningar innan åtgärder vidtas. Detta gör det möjligt för agenten att planera och fatta mer informerade beslut;
- Modellfria: i detta tillvägagångssätt har agenten ingen direkt modell av miljön. Den lär sig enbart genom interaktion med miljön och förlitar sig på försök och misstag för att upptäcka de bästa åtgärderna.
I praktiken är miljöer med explicita modeller ovanliga, vilket gör det svårt för agenter att förlita sig på modellbaserade strategier. Som ett resultat har modellfria tillvägagångssätt blivit mer förekommande och är omfattande studerade inom forskning och tillämpningar av förstärkningsinlärning.
Policy
Policy är den strategi som en agent följer för att bestämma sina handlingar baserat på miljöns aktuella tillstånd.
Det finns två typer av policies:
- Deterministisk policy: agenten väljer alltid samma handling för ett givet tillstånd;
- Stokastisk policy: agenten väljer handlingar baserat på sannolikhetsfördelningar.
Under inlärningsprocessen är agentens mål att hitta en optimal policy. En optimal policy är en som maximerar den förväntade avkastningen och vägleder agenten att fatta de bästa möjliga besluten i varje givet tillstånd.
Värdefunktioner
Värdefunktioner är avgörande för att förstå hur en agent utvärderar potentialen hos ett visst tillstånd eller tillstånd-handlingspar. De används för att uppskatta framtida förväntade belöningar, vilket hjälper agenten att fatta välgrundade beslut.
Tillståndsvärdesfunktion
Tillståndsvärdesfunktion (eller ) är en funktion som anger det förväntade utfallet av att befinna sig i ett specifikt tillstånd och följa en given policy. Den används för att utvärdera önskvärdheten hos tillstånd.
Värdet av ett tillstånd kan uttryckas matematiskt så här:
Tillstånd-handlingsvärdefunktion
Tillstånd-handlingsvärdefunktion (eller ) är en funktion som anger det förväntade utfallet av att utföra en specifik handling i ett givet tillstånd och därefter följa en specifik policy. Den används för att utvärdera önskvärdheten av handlingar i olika tillstånd.
Tillstånd-handlingsvärdefunktion kallas ofta för handlingsvärdefunktion.
Värdet av en handling kan uttryckas matematiskt så här:
Samband mellan modell, policy och värdefunktioner
Begreppen modell, policy och värdefunktioner är nära sammankopplade och bildar en omfattande ram för att kategorisera RL-algoritmer. Denna ram definieras av två huvudsakliga axlar:
- Inlärningsmål: denna axel representerar spektrumet av RL-algoritmer baserat på deras beroende av värdefunktioner, policyfunktioner eller en kombination av båda;
- Modellanvändning: denna axel särskiljer algoritmer baserat på om de använder en modell av miljön eller lär sig enbart genom interaktion.
Genom att kombinera dessa dimensioner kan vi klassificera RL-algoritmer i distinkta kategorier, var och en med sina egna egenskaper och ideala användningsområden. Att förstå dessa samband hjälper till att välja rätt algoritm för specifika uppgifter och säkerställer effektiva inlärnings- och beslutsprocesser.
Tack för dina kommentarer!