Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on Temporaalinen Erotusoppiminen? | Aikaisen Eron Oppiminen
Vahvistusoppimisen Perusteet

bookMikä on Temporaalinen Erotusoppiminen?

Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on hyviä ideoita, mutta myös merkittäviä haittoja.

Dynaaminen ohjelmointi

Dynaaminen ohjelmointi mahdollistaa tilaarvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.

Vaikka bootstrappingin ajatus onkin vahva, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:

  • Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
  • Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.

Monte Carlo -menetelmät

Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:

  • Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
  • Oppimistapa rajoittaa tutkimista, joten vähemmän tärkeät tilat jäävät harvoin vierailluiksi.

Ne tuovat kuitenkin mukanaan uuden rajoituksen — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmat tehtävät vaatisivat kohtuuttoman suuren määrän toimintoja ennen episodin päättymistä.

Aikaisen erotuksen oppiminen

Note
Määritelmä

Aikaisen eron (TD) oppiminen on tulosta dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.

Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:

  • Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
  • Bootstrapping ratkaisee episodisen oppimisen ongelman.

Miten se toimii?

TD-oppiminen toimii yksinkertaisen silmukan kautta:

  1. Arvon arviointi: agentti aloittaa alkuarviolla siitä, kuinka hyvä nykyinen tila on;
  2. Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
  3. Arvion päivittäminen: käyttämällä palkkiota ja uuden tilan arvoa agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
  4. Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.

Vertailutaulukko

question mark

Miten temporal difference -oppiminen yhdistää dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien vahvuudet?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.7

bookMikä on Temporaalinen Erotusoppiminen?

Pyyhkäise näyttääksesi valikon

Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on hyviä ideoita, mutta myös merkittäviä haittoja.

Dynaaminen ohjelmointi

Dynaaminen ohjelmointi mahdollistaa tilaarvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.

Vaikka bootstrappingin ajatus onkin vahva, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:

  • Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
  • Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.

Monte Carlo -menetelmät

Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:

  • Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
  • Oppimistapa rajoittaa tutkimista, joten vähemmän tärkeät tilat jäävät harvoin vierailluiksi.

Ne tuovat kuitenkin mukanaan uuden rajoituksen — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmat tehtävät vaatisivat kohtuuttoman suuren määrän toimintoja ennen episodin päättymistä.

Aikaisen erotuksen oppiminen

Note
Määritelmä

Aikaisen eron (TD) oppiminen on tulosta dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.

Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:

  • Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
  • Bootstrapping ratkaisee episodisen oppimisen ongelman.

Miten se toimii?

TD-oppiminen toimii yksinkertaisen silmukan kautta:

  1. Arvon arviointi: agentti aloittaa alkuarviolla siitä, kuinka hyvä nykyinen tila on;
  2. Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
  3. Arvion päivittäminen: käyttämällä palkkiota ja uuden tilan arvoa agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
  4. Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.

Vertailutaulukko

question mark

Miten temporal difference -oppiminen yhdistää dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien vahvuudet?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 1
some-alt