Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Markov Beslutningsprosess
Markov beslutningsprosess (MDP) er et matematisk rammeverk som brukes til å modellere beslutningsproblemer der en agent samhandler med et miljø over tid.
Forsterkende læring blir ofte formulert som MDP-er, som gir en strukturert måte å definere problemet på. MDP-er beskriver miljøet ved hjelp av fire nøkkelkomponenter: tilstander, handlinger, overganger og belønninger. Disse komponentene fungerer sammen under Markov-egenskapen, som sikrer at fremtidig tilstand avhenger kun av nåværende tilstand og handling, ikke av tidligere tilstander.
De fire komponentene
Tilstand
En tilstand er en representasjon av miljøet på et bestemt tidspunkt. Mengden av alle mulige tilstander kalles et tilstandsrom .
En tilstand representeres vanligvis av et sett med parametere som fanger opp relevante egenskaper ved miljøet. Disse parameterne kan inkludere ulike aspekter som posisjon, hastighet, rotasjon osv.
Handling
En handling er en beslutning eller et trekk gjort av agenten for å påvirke miljøet. Mengden av alle mulige handlinger kalles et handlingsrom .
Mengden av mulige handlinger avhenger vanligvis av nåværende tilstand.
Overgang
Overgang beskriver hvordan miljøets tilstand endres som respons på agentens handling. Overgangsfunksjonen angir sannsynligheten for å gå fra én tilstand til en annen, gitt en spesifikk handling.
I mange tilfeller kan miljøer være enten deterministiske eller stokastiske, noe som betyr at overgangen kan være forutsigbar eller innebære en viss grad av tilfeldighet.
Belønning
En belønning er en numerisk verdi mottatt av agenten etter å ha utført en handling i en bestemt tilstand. Funksjonen som kartlegger overganger til forventede belønninger kalles belønningsfunksjonen .
Belønninger styrer agenten mot ønsket atferd, og kan være enten positive eller negative. Belønningsutforming er komplekst, ettersom agenten kan forsøke å utnytte belønningene.
Markov-egenskapen
Markov-egenskapen i en Markov beslutningsprosess sier at neste tilstand og belønning avhenger kun av nåværende tilstand og handling, ikke av tidligere informasjon. Dette sikrer en hukommelsesfri ramme, noe som forenkler læringsprosessen.
Matematisk kan denne egenskapen beskrives med følgende formel:
hvor:
- er en tilstand ved tid ;
- er en handling utført ved tid ;
- er en belønning ved tid .
Den hukommelsesfrie naturen til MDP betyr ikke at tidligere observasjoner blir ignorert. Nåværende tilstand skal inneholde all relevant historisk informasjon.
Takk for tilbakemeldingene dine!