Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on temporaalinen erotusoppiminen? | Aikaisen Eron Oppiminen
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Mikä on temporaalinen erotusoppiminen?

Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on erinomaisia ideoita, mutta myös merkittäviä haittoja.

Dynaaminen ohjelmointi

Dynaaminen ohjelmointi mahdollistaa tilan arvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.

Vaikka bootstrappingin idea onkin vahva, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:

  • Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
  • Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.

Monte Carlo -menetelmät

Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:

  • Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
  • Oppiminen kokemuksesta rajoittaa tutkimista, joten epäolennaisia tiloja harvoin kohdataan.

Ne tuovat kuitenkin mukanaan uuden rajoitteen — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmat tehtävät vaatisivat valtavan määrän toimintoja ennen episodin päättymistä.

Aikaisen erotuksen oppiminen

Note
Määritelmä

Aikaisen eron (TD) oppiminen on seurausta dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.

Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:

  • Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
  • Bootstrapping ratkaisee episodisen oppimisen ongelman.

Miten se toimii?

TD-oppiminen toimii yksinkertaisessa silmukassa:

  1. Arvon arviointi: agentti aloittaa alkuperäisellä arvauksella siitä, kuinka hyvä nykyinen tila on;
  2. Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
  3. Arvion päivittäminen: käyttämällä palkkiota ja uuden tilan arvoa agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
  4. Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.

Vertailutaulukko

question mark

Miten temporal difference -oppiminen yhdistää dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien vahvuudet?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Mikä on temporaalinen erotusoppiminen?

Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on erinomaisia ideoita, mutta myös merkittäviä haittoja.

Dynaaminen ohjelmointi

Dynaaminen ohjelmointi mahdollistaa tilan arvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.

Vaikka bootstrappingin idea onkin vahva, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:

  • Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
  • Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.

Monte Carlo -menetelmät

Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:

  • Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
  • Oppiminen kokemuksesta rajoittaa tutkimista, joten epäolennaisia tiloja harvoin kohdataan.

Ne tuovat kuitenkin mukanaan uuden rajoitteen — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmat tehtävät vaatisivat valtavan määrän toimintoja ennen episodin päättymistä.

Aikaisen erotuksen oppiminen

Note
Määritelmä

Aikaisen eron (TD) oppiminen on seurausta dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.

Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:

  • Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
  • Bootstrapping ratkaisee episodisen oppimisen ongelman.

Miten se toimii?

TD-oppiminen toimii yksinkertaisessa silmukassa:

  1. Arvon arviointi: agentti aloittaa alkuperäisellä arvauksella siitä, kuinka hyvä nykyinen tila on;
  2. Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
  3. Arvion päivittäminen: käyttämällä palkkiota ja uuden tilan arvoa agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
  4. Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.

Vertailutaulukko

question mark

Miten temporal difference -oppiminen yhdistää dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien vahvuudet?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 1
some-alt