Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Malli, Politiikka ja Arvot
Malli
Malli on ympäristön esitys, joka määrittelee tilojen välisten siirtymätodennäköisyydet ja odotetut palkkiot suoritetuista toiminnoista.
Vahvistusoppimisalgoritmit voidaan jakaa kahteen kategoriaan:
- Mallipohjaiset: tässä lähestymistavassa agentti oppii tai sillä on käytössään ympäristön malli, jonka avulla se voi simuloida tulevia tiloja ja palkkioita ennen toiminnan suorittamista. Tämä mahdollistaa agentille suunnittelun ja perustellumman päätöksenteon;
- Mallittomat: tässä lähestymistavassa agentilla ei ole suoraa mallia ympäristöstä. Se oppii ainoastaan vuorovaikutuksen kautta ympäristön kanssa, luottaen kokeiluun ja erehdykseen parhaiden toimintojen löytämiseksi.
Käytännössä ympäristöt, joissa on eksplisiittinen malli, ovat harvinaisia, mikä vaikeuttaa agenttien mallipohjaisten strategioiden hyödyntämistä. Tämän seurauksena mallittomat lähestymistavat ovat yleistyneet ja niitä on tutkittu laajasti vahvistusoppimisen tutkimuksessa ja sovelluksissa.
Politiikka
Politiikka on strategia, jonka agentti noudattaa valitakseen toimintonsa ympäristön nykytilan perusteella.
Politiikkoja on kahta tyyppiä:
- Deterministinen politiikka: agentti valitsee aina saman toiminnon tietylle tilalle;
- Stokastinen politiikka: agentti valitsee toimintoja todennäköisyysjakaumien perusteella.
Oppimisprosessin aikana agentin tavoitteena on löytää optimaalinen politiikka. Optimaalinen politiikka on sellainen, joka maksimoi odotetun tuoton, ohjaten agenttia tekemään parhaat mahdolliset päätökset missä tahansa annetussa tilassa.
Arvofunktiot
Arvofunktiot ovat keskeisiä agentin arvioidessa tietyn tilan tai tila-toimintaparin potentiaalia. Niitä käytetään arvioimaan tulevia odotettuja palkkioita, mikä auttaa agenttia tekemään perusteltuja päätöksiä.
Tilaarvofunktio
Tilaarvofunktio (tai ) on funktio, joka antaa odotetun tuoton ollessa tietyssä tilassa ja noudattaen tiettyä politiikkaa. Se auttaa arvioimaan tilojen toivottavuutta.
Tilaarvon voi esittää matemaattisesti seuraavasti:
Tilatoiminto-arvofunktio
Tilatoiminto-arvofunktio (tai ) on funktio, joka antaa odotetun tuoton suoritettaessa tietty toiminto tietyssä tilassa ja noudattamalla tämän jälkeen tiettyä politiikkaa. Se auttaa arvioimaan toimintojen mielekkyyttä eri tiloissa.
Tilatoiminto-arvofunktiota kutsutaan usein myös toimintoarvofunktioksi.
Toiminnon arvo voidaan esittää matemaattisesti seuraavasti:
Mallin, politiikan ja arvofunktioiden välinen suhde
Käsitteet malli, politiikka ja arvofunktiot ovat tiiviisti yhteydessä toisiinsa, muodostaen kattavan viitekehyksen RL-algoritmien luokittelulle. Tämä viitekehys määritellään kahden pääakselin avulla:
- Oppimisen kohde: tämä akseli kuvaa RL-algoritmien kirjoa niiden riippuvuuden perusteella arvofunktioihin, politiikkafunktioihin tai molempiin;
- Mallin käyttö: tämä akseli erottaa algoritmit sen perusteella, käyttävätkö ne ympäristön mallia vai oppivatko ne pelkästään vuorovaikutuksen kautta.
Yhdistämällä nämä ulottuvuudet voimme luokitella RL-algoritmit erillisiin kategorioihin, joilla jokaisella on omat ominaisuutensa ja ihanteelliset käyttötapauksensa. Näiden suhteiden ymmärtäminen auttaa valitsemaan sopivan algoritmin tiettyihin tehtäviin, varmistaen tehokkaan oppimisen ja päätöksenteon.
Kiitos palautteestasi!