Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Etsintämenetelmät
Exploring starts -oletus on hyödyllinen varmistamaan, että kaikki tilat (tila-toimintaparit) käydään ajan myötä läpi. Useimmissa todellisissa tehtävissä siinä on kuitenkin merkittävä haittapuoli: se vaatii mallin, jolla agentti voidaan alustaa mielivaltaisiin tiloihin.
Harvinaisissa tapauksissa — kun ympäristö luonnostaan aloittaa jaksot satunnaisista tiloista, jotka kattavat koko tilatilan — exploring starts voidaan soveltaa ongelmitta. Useimmiten tehtävillä on kuitenkin kiinteä tai rajoitettu joukko aloitustiloja, mikä tekee tällaisesta satunnaistamisesta mahdotonta ilman osittaista mallia. Tämän mallin tulisi vähintään kyetä simuloimaan yksi askel ympäristössä mistä tahansa tilasta. Vaikka tämä onkin vähemmän vaativaa kuin täyden mallin tarve, se on usein epäkäytännöllistä.
Vaihtoehtoiset tutkimusmenetelmät
Jos satunnaisesta tilasta (tila-toimintaparista) aloittaminen ei ole mahdollista, vaihtoehtona on varmistaa, että jokaisella toiminnolla on nollasta poikkeava todennäköisyys tulla valituksi jokaisessa tilassa. Tämä takaa, että ajan myötä agentti tutkii kaikki saavutettavissa olevat osat tilatilasta. Jos tila voidaan saavuttaa jollakin kelvollisella toimintojen sarjalla, se saavutetaan lopulta; ja jos sitä ei voida saavuttaa lainkaan ympäristön dynamiikan puitteissa, sillä ei ole merkitystä oppimisprosessin kannalta.
Tämä ajatus johtaa stokastisten politiikkojen käyttöön, joissa agentti ei aina valitse parasta tunnettua toimintoa, vaan valitsee toimintoja jossain määrin satunnaisesti. Yleinen strategia tähän on tuttu -ahne politiikka (-greedy policy), joka valitsee ahneen toiminnon useimmiten, mutta todennäisyydellä valitsee satunnaisen toiminnon. Tämä varmistaa jatkuvan tutkimisen, mutta suosii silti korkean arvon toimintoja.
Tässä vaiheessa on myös hyödyllistä erottaa kaksi pääasiallista menetelmäluokkaa:
- On-policy-menetelmät arvioivat ja parantavat samaa politiikkaa, jota käytetään datan tuottamiseen;
- Off-policy-menetelmät arvioivat ja parantavat yhtä politiikkaa, mutta tuottavat datan toisella politiikalla.
1. Mikä on suurin ongelma exploring starts -oletuksessa?
2. Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?
Kiitos palautteestasi!