Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Mikä on temporaalinen erotusoppiminen?
Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on erinomaisia ideoita, mutta myös merkittäviä haittoja.
Dynaaminen ohjelmointi
Dynaaminen ohjelmointi mahdollistaa tilan arvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.
Vaikka bootstrappingin idea onkin vahva, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:
- Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
- Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.
Monte Carlo -menetelmät
Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:
- Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
- Oppiminen kokemuksesta rajoittaa tutkimista, joten epäolennaisia tiloja harvoin kohdataan.
Ne tuovat kuitenkin mukanaan uuden rajoitteen — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmat tehtävät vaatisivat valtavan määrän toimintoja ennen episodin päättymistä.
Aikaisen erotuksen oppiminen
Aikaisen eron (TD) oppiminen on seurausta dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.
Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:
- Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
- Bootstrapping ratkaisee episodisen oppimisen ongelman.
Miten se toimii?
TD-oppiminen toimii yksinkertaisessa silmukassa:
- Arvon arviointi: agentti aloittaa alkuperäisellä arvauksella siitä, kuinka hyvä nykyinen tila on;
- Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
- Arvion päivittäminen: käyttämällä palkkiota ja uuden tilan arvoa agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
- Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.
Vertailutaulukko
Kiitos palautteestasi!