Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Etsintämenetelmät | Monte Carlo -menetelmät
Vahvistusoppimisen Perusteet

bookEtsintämenetelmät

Exploring starts -oletus on hyödyllinen varmistamaan, että kaikki tilat (tila-toimintaparit) käydään ajan myötä läpi. Useimmissa todellisissa tehtävissä siinä on kuitenkin merkittävä haittapuoli: se vaatii mallin, jonka avulla agentti voidaan alustaa mielivaltaisiin tiloihin.

Harvinaisissa tapauksissa — kun ympäristö luonnostaan aloittaa jaksot satunnaisista tiloista, jotka kattavat koko tilatilan — exploring starts voidaan soveltaa ongelmitta. Useimmiten tehtävillä on kuitenkin kiinteä tai rajoitettu joukko aloitustiloja, mikä tekee tällaisesta satunnaistamisesta mahdotonta ilman osittaista mallia. Tämän mallin tulisi vähintään kyetä simuloimaan yksi askel ympäristössä mistä tahansa tilasta. Vaikka tämä onkin vähemmän vaativaa kuin täyden mallin tarve, se on usein epäkäytännöllistä.

Vaihtoehtoiset tutkimusmenetelmät

Jos satunnaisesta tilasta (tila-toimintaparista) aloittaminen ei ole mahdollista, vaihtoehtona on varmistaa, että jokaisella toiminnolla on nollasta poikkeava todennäköisyys tulla valituksi jokaisessa tilassa. Tämä takaa, että ajan myötä agentti tutkii kaikki saavutettavissa olevat osat tilatilasta. Jos tila voidaan saavuttaa jonkin kelvollisen toimintojonon kautta, se saavutetaan lopulta; ja jos sitä ei voida saavuttaa lainkaan ympäristön dynamiikan puitteissa, sillä ei ole merkitystä oppimisprosessin kannalta.

Tämä ajatus johtaa stokastisten politiikkojen käyttöön, joissa agentti ei aina valitse parasta tunnettua toimintoa, vaan valitsee toimintoja satunnaisuudella. Yleinen strategia tähän on tuttu ε\varepsilon-ahne politiikka (ε\varepsilon-greedy policy), jossa ahne toiminto valitaan useimmiten, mutta todennäisyydellä ε\varepsilon valitaan satunnainen toiminto. Tämä varmistaa jatkuvan tutkimisen, mutta suosii silti korkean arvon toimintoja.

Tässä vaiheessa on myös hyödyllistä erottaa kaksi pääasiallista menetelmäluokkaa:

  • On-policy-menetelmät arvioivat ja parantavat samaa politiikkaa, jota käytetään datan tuottamiseen;
  • Off-policy-menetelmät arvioivat ja parantavat yhtä politiikkaa, mutta tuottavat datan toisella politiikalla.

1. Mikä on suurin ongelma exploring starts -oletuksessa?

2. Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

question mark

Mikä on suurin ongelma exploring starts -oletuksessa?

Select the correct answer

question mark

Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 4

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.7

bookEtsintämenetelmät

Pyyhkäise näyttääksesi valikon

Exploring starts -oletus on hyödyllinen varmistamaan, että kaikki tilat (tila-toimintaparit) käydään ajan myötä läpi. Useimmissa todellisissa tehtävissä siinä on kuitenkin merkittävä haittapuoli: se vaatii mallin, jonka avulla agentti voidaan alustaa mielivaltaisiin tiloihin.

Harvinaisissa tapauksissa — kun ympäristö luonnostaan aloittaa jaksot satunnaisista tiloista, jotka kattavat koko tilatilan — exploring starts voidaan soveltaa ongelmitta. Useimmiten tehtävillä on kuitenkin kiinteä tai rajoitettu joukko aloitustiloja, mikä tekee tällaisesta satunnaistamisesta mahdotonta ilman osittaista mallia. Tämän mallin tulisi vähintään kyetä simuloimaan yksi askel ympäristössä mistä tahansa tilasta. Vaikka tämä onkin vähemmän vaativaa kuin täyden mallin tarve, se on usein epäkäytännöllistä.

Vaihtoehtoiset tutkimusmenetelmät

Jos satunnaisesta tilasta (tila-toimintaparista) aloittaminen ei ole mahdollista, vaihtoehtona on varmistaa, että jokaisella toiminnolla on nollasta poikkeava todennäköisyys tulla valituksi jokaisessa tilassa. Tämä takaa, että ajan myötä agentti tutkii kaikki saavutettavissa olevat osat tilatilasta. Jos tila voidaan saavuttaa jonkin kelvollisen toimintojonon kautta, se saavutetaan lopulta; ja jos sitä ei voida saavuttaa lainkaan ympäristön dynamiikan puitteissa, sillä ei ole merkitystä oppimisprosessin kannalta.

Tämä ajatus johtaa stokastisten politiikkojen käyttöön, joissa agentti ei aina valitse parasta tunnettua toimintoa, vaan valitsee toimintoja satunnaisuudella. Yleinen strategia tähän on tuttu ε\varepsilon-ahne politiikka (ε\varepsilon-greedy policy), jossa ahne toiminto valitaan useimmiten, mutta todennäisyydellä ε\varepsilon valitaan satunnainen toiminto. Tämä varmistaa jatkuvan tutkimisen, mutta suosii silti korkean arvon toimintoja.

Tässä vaiheessa on myös hyödyllistä erottaa kaksi pääasiallista menetelmäluokkaa:

  • On-policy-menetelmät arvioivat ja parantavat samaa politiikkaa, jota käytetään datan tuottamiseen;
  • Off-policy-menetelmät arvioivat ja parantavat yhtä politiikkaa, mutta tuottavat datan toisella politiikalla.

1. Mikä on suurin ongelma exploring starts -oletuksessa?

2. Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

question mark

Mikä on suurin ongelma exploring starts -oletuksessa?

Select the correct answer

question mark

Mikä on ero on-policy- ja off-policy-menetelmien välillä vahvistusoppimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 4
some-alt