Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Markov Beslutningsproces
Markov beslutningsproces (MDP) er en matematisk ramme, der bruges til at modellere beslutningstagning-problemer, hvor en agent interagerer med et miljø over tid.
Forstærkningslæringsproblemer opstilles ofte som MDP'er, hvilket giver en struktureret måde at definere problemet på. MDP'er beskriver miljøet ved hjælp af fire nøglekomponenter: tilstande, handlinger, overgange og belønninger. Disse komponenter fungerer sammen under Markov-egenskaben, som sikrer, at den fremtidige tilstand kun afhænger af den nuværende tilstand og handling, ikke af tidligere tilstande.
De fire komponenter
Tilstand
En tilstand er en repræsentation af miljøet på et bestemt tidspunkt. Mængden af alle mulige tilstande kaldes et tilstandsrum .
En tilstand repræsenteres typisk af et sæt parametre, der indfanger de relevante egenskaber ved miljøet. Disse parametre kan omfatte forskellige aspekter såsom position, hastighed, rotation osv.
Handling
En handling er en beslutning eller et træk foretaget af agenten for at påvirke miljøet. Mængden af alle mulige handlinger kaldes et handlingsrum .
Mængden af mulige handlinger afhænger normalt af den aktuelle tilstand.
Transition
Transition beskriver, hvordan miljøets tilstand ændres som reaktion på agentens handling. Transitionsfunktionen angiver sandsynligheden for at bevæge sig fra en tilstand til en anden, givet en specifik handling.
I mange tilfælde kan miljøer enten være deterministiske eller stokastiske, hvilket betyder, at transitionen kan være forudsigelig eller kan indeholde en vis grad af tilfældighed.
Belønning
En belønning er en numerisk værdi, som agenten modtager efter at have udført en handling i en bestemt tilstand. Funktionen, der kortlægger overgange til forventede belønninger, kaldes belønningsfunktionen .
Belønninger styrer agenten mod ønsket adfærd og kan være enten positive eller negative. Belønningsdesign er komplekst, da agenten kan forsøge at udnytte belønningerne.
Markov-egenskaben
Markov-egenskaben i en Markov-beslutningsproces angiver, at næste tilstand og belønning afhænger udelukkende af nuværende tilstand og handling, ikke af tidligere information. Dette sikrer en hukommelsesfri ramme, hvilket forenkler læringsprocessen.
Matematisk kan denne egenskab beskrives med følgende formel:
hvor:
- er en tilstand på tidspunktet ;
- er en handling udført på tidspunktet ;
- er en belønning på tidspunktet .
Den hukommelsesfri karakter af MDP betyder ikke, at tidligere observationer ignoreres. Nuværende tilstand skal indeholde al relevant historisk information.
Tak for dine kommentarer!