Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Etsintämenetelmät | Monte Carlo -Menetelmät
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Etsintämenetelmät

Exploring starts -oletus on hyödyllinen varmistamaan, että kaikki tilat (tila-toimintaparit) käydään ajan myötä läpi. Useimmissa todellisissa tehtävissä siinä on kuitenkin merkittävä haittapuoli: se vaatii mallin, jolla agentti voidaan alustaa mielivaltaisiin tiloihin.

Harvinaisissa tapauksissa — kun ympäristö luonnostaan aloittaa jaksot satunnaisista tiloista, jotka kattavat koko tilatilan — exploring starts voidaan soveltaa ongelmitta. Useimmiten tehtävillä on kuitenkin kiinteä tai rajoitettu joukko aloitustiloja, mikä tekee tällaisesta satunnaistamisesta mahdotonta ilman osittaista mallia. Tämän mallin tulisi vähintään kyetä simuloimaan yksi askel ympäristössä mistä tahansa tilasta. Vaikka tämä onkin vähemmän vaativaa kuin täyden mallin tarve, se on usein epäkäytännöllistä.

Vaihtoehtoiset tutkimusmenetelmät

Jos satunnaisesta tilasta (tila-toimintaparista) aloittaminen ei ole mahdollista, vaihtoehtona on varmistaa, että jokaisella toiminnolla on nollasta poikkeava todennäköisyys tulla valituksi jokaisessa tilassa. Tämä takaa, että ajan myötä agentti tutkii kaikki saavutettavissa olevat osat tilatilasta. Jos tila voidaan saavuttaa jollakin kelvollisella toimintojen sarjalla, se saavutetaan lopulta; ja jos sitä ei voida saavuttaa lainkaan ympäristön dynamiikan puitteissa, sillä ei ole merkitystä oppimisprosessin kannalta.

Tämä ajatus johtaa stokastisten politiikkojen käyttöön, joissa agentti ei aina valitse parasta tunnettua toimintoa, vaan valitsee toimintoja jossain määrin satunnaisesti. Yleinen strategia tähän on tuttu ε\varepsilon-ahne politiikka (ε\varepsilon-greedy policy), joka valitsee ahneen toiminnon useimmiten, mutta todennäisyydellä ε\varepsilon valitsee satunnaisen toiminnon. Tämä varmistaa jatkuvan tutkimisen, mutta suosii silti korkean arvon toimintoja.

Tässä vaiheessa on myös hyödyllistä erottaa kaksi pääasiallista menetelmäluokkaa:

  • On-policy-menetelmät arvioivat ja parantavat samaa politiikkaa, jota käytetään datan tuottamiseen;
  • Off-policy-menetelmät arvioivat ja parantavat yhtä politiikkaa, mutta tuottavat datan toisella politiikalla.

1. Mikä on suurin ongelma exploring starts -oletuksessa?

2. Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

question mark

Mikä on suurin ongelma exploring starts -oletuksessa?

Select the correct answer

question mark

Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 4

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Etsintämenetelmät

Exploring starts -oletus on hyödyllinen varmistamaan, että kaikki tilat (tila-toimintaparit) käydään ajan myötä läpi. Useimmissa todellisissa tehtävissä siinä on kuitenkin merkittävä haittapuoli: se vaatii mallin, jolla agentti voidaan alustaa mielivaltaisiin tiloihin.

Harvinaisissa tapauksissa — kun ympäristö luonnostaan aloittaa jaksot satunnaisista tiloista, jotka kattavat koko tilatilan — exploring starts voidaan soveltaa ongelmitta. Useimmiten tehtävillä on kuitenkin kiinteä tai rajoitettu joukko aloitustiloja, mikä tekee tällaisesta satunnaistamisesta mahdotonta ilman osittaista mallia. Tämän mallin tulisi vähintään kyetä simuloimaan yksi askel ympäristössä mistä tahansa tilasta. Vaikka tämä onkin vähemmän vaativaa kuin täyden mallin tarve, se on usein epäkäytännöllistä.

Vaihtoehtoiset tutkimusmenetelmät

Jos satunnaisesta tilasta (tila-toimintaparista) aloittaminen ei ole mahdollista, vaihtoehtona on varmistaa, että jokaisella toiminnolla on nollasta poikkeava todennäköisyys tulla valituksi jokaisessa tilassa. Tämä takaa, että ajan myötä agentti tutkii kaikki saavutettavissa olevat osat tilatilasta. Jos tila voidaan saavuttaa jollakin kelvollisella toimintojen sarjalla, se saavutetaan lopulta; ja jos sitä ei voida saavuttaa lainkaan ympäristön dynamiikan puitteissa, sillä ei ole merkitystä oppimisprosessin kannalta.

Tämä ajatus johtaa stokastisten politiikkojen käyttöön, joissa agentti ei aina valitse parasta tunnettua toimintoa, vaan valitsee toimintoja jossain määrin satunnaisesti. Yleinen strategia tähän on tuttu ε\varepsilon-ahne politiikka (ε\varepsilon-greedy policy), joka valitsee ahneen toiminnon useimmiten, mutta todennäisyydellä ε\varepsilon valitsee satunnaisen toiminnon. Tämä varmistaa jatkuvan tutkimisen, mutta suosii silti korkean arvon toimintoja.

Tässä vaiheessa on myös hyödyllistä erottaa kaksi pääasiallista menetelmäluokkaa:

  • On-policy-menetelmät arvioivat ja parantavat samaa politiikkaa, jota käytetään datan tuottamiseen;
  • Off-policy-menetelmät arvioivat ja parantavat yhtä politiikkaa, mutta tuottavat datan toisella politiikalla.

1. Mikä on suurin ongelma exploring starts -oletuksessa?

2. Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

question mark

Mikä on suurin ongelma exploring starts -oletuksessa?

Select the correct answer

question mark

Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 4
some-alt