Oppiskele Etsintämenetelmät | Monte Carlo -Menetelmät

Exploring starts -oletus on hyödyllinen varmistamaan, että kaikki tilat (tila-toimintoparit) käydään ajan myötä läpi. Useimmissa todellisissa tehtävissä siinä on kuitenkin merkittävä haittapuoli: se vaatii mallin, joka alustaa agentin satunnaisiin tiloihin.

Harvinaisissa tapauksissa — kun ympäristö luonnollisesti aloittaa jaksot satunnaisista tiloista, jotka kattavat koko tilatilan — exploring starts voidaan soveltaa ongelmitta. Useimmiten tehtävillä on kuitenkin kiinteä tai rajoitettu joukko aloitustiloja, mikä tekee tällaisesta satunnaistamisesta mahdotonta ilman osittaista mallia. Tämän mallin tulisi vähintään kyetä simuloimaan yksi askel ympäristössä mistä tahansa tilasta. Vaikka tämä onkin vähemmän vaativaa kuin täyden mallin tarve, se on usein epäkäytännöllistä.

Vaihtoehtoiset tutkimusmenetelmät

Jos satunnaisesta tilasta (tila-toimintoparista) aloittaminen ei ole mahdollista, vaihtoehtona on varmistaa, että jokaisella toiminnolla on nollasta poikkeava todennäköisyys tulla valituksi jokaisessa tilassa. Tämä takaa, että ajan myötä agentti tutkii kaikki saavutettavissa olevat osat tilatilasta. Jos tila voidaan saavuttaa jollakin kelvollisella toimintojen sarjalla, se saavutetaan lopulta; ja jos sitä ei voida saavuttaa lainkaan ympäristön dynamiikan puitteissa, sillä ei ole merkitystä oppimisprosessin kannalta.

Tämä ajatus johtaa stokastisten politiikkojen käyttöön, joissa agentti ei aina valitse parasta tunnettua toimintoa, vaan valitsee toimintoja satunnaisuudella. Yleinen strategia tähän on tuttu $\varepsilon$ -ahne politiikka, joka valitsee ahneen toiminnon useimmiten, mutta todennäköisyydellä $\varepsilon$ valitsee satunnaisen toiminnon. Tämä varmistaa jatkuvan tutkimisen, mutta suosii silti korkean arvon toimintoja.

Tässä vaiheessa on myös hyödyllistä erottaa kaksi pääasiallista menetelmäluokkaa:

On-policy-menetelmät arvioivat ja parantavat samaa politiikkaa, jota käytetään datan tuottamiseen;
Off-policy-menetelmät arvioivat ja parantavat yhtä politiikkaa, ja tuottavat datan toisella politiikalla.

1. Mikä on suurin ongelma exploring starts -oletuksessa?

2. Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 4

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods in more detail?

How does the ε-greedy policy work in practice?

What are some other exploration strategies besides ε-greedy?

Pyyhkäise näyttääksesi valikon