Mikä on temporaalinen erotusoppiminen?
Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on erinomaisia ideoita, mutta myös merkittäviä haittoja.
Dynaaminen ohjelmointi
Dynaaminen ohjelmointi mahdollistaa tilan arvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.
Vaikka bootstrappingin idea onkin vahva, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:
- Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
- Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.
Monte Carlo -menetelmät
Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:
- Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
- Oppiminen kokemuksesta rajoittaa tutkimista, joten epäolennaisia tiloja harvoin kohdataan.
Ne tuovat kuitenkin mukanaan uuden rajoitteen — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmat tehtävät vaatisivat valtavan määrän toimintoja ennen episodin päättymistä.
Aikaisen erotuksen oppiminen
Aikaisen eron (TD) oppiminen on seurausta dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.
Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:
- Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
- Bootstrapping ratkaisee episodisen oppimisen ongelman.
Miten se toimii?
TD-oppiminen toimii yksinkertaisessa silmukassa:
- Arvon arviointi: agentti aloittaa alkuperäisellä arvauksella siitä, kuinka hyvä nykyinen tila on;
- Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
- Arvion päivittäminen: käyttämällä palkkiota ja uuden tilan arvoa agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
- Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.
Vertailutaulukko
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.7
Mikä on temporaalinen erotusoppiminen?
Pyyhkäise näyttääksesi valikon
Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on erinomaisia ideoita, mutta myös merkittäviä haittoja.
Dynaaminen ohjelmointi
Dynaaminen ohjelmointi mahdollistaa tilan arvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.
Vaikka bootstrappingin idea onkin vahva, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:
- Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
- Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.
Monte Carlo -menetelmät
Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:
- Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
- Oppiminen kokemuksesta rajoittaa tutkimista, joten epäolennaisia tiloja harvoin kohdataan.
Ne tuovat kuitenkin mukanaan uuden rajoitteen — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmat tehtävät vaatisivat valtavan määrän toimintoja ennen episodin päättymistä.
Aikaisen erotuksen oppiminen
Aikaisen eron (TD) oppiminen on seurausta dynaamisen ohjelmoinnin ja Monte Carlo -menetelmien yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.
Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:
- Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
- Bootstrapping ratkaisee episodisen oppimisen ongelman.
Miten se toimii?
TD-oppiminen toimii yksinkertaisessa silmukassa:
- Arvon arviointi: agentti aloittaa alkuperäisellä arvauksella siitä, kuinka hyvä nykyinen tila on;
- Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
- Arvion päivittäminen: käyttämällä palkkiota ja uuden tilan arvoa agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
- Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.
Vertailutaulukko
Kiitos palautteestasi!