Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Malli, Politiikka ja Arvot | RL:n Ydinteoria
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Malli, Politiikka ja Arvot

Malli

Note
Määritelmä

Malli on ympäristön esitys, joka määrittelee tilojen välisten siirtymätodennäköisyydet ja odotetut palkkiot suoritetuista toiminnoista.

Vahvistusoppimisalgoritmit voidaan jakaa kahteen kategoriaan:

  • Mallipohjaiset: tässä lähestymistavassa agentti oppii tai sillä on käytössään ympäristön malli, jonka avulla se voi simuloida tulevia tiloja ja palkkioita ennen toiminnan suorittamista. Tämä mahdollistaa agentille suunnittelun ja perustellumman päätöksenteon;
  • Mallittomat: tässä lähestymistavassa agentilla ei ole suoraa mallia ympäristöstä. Se oppii ainoastaan vuorovaikutuksen kautta ympäristön kanssa, luottaen kokeiluun ja erehdykseen parhaiden toimintojen löytämiseksi.

Käytännössä ympäristöt, joissa on eksplisiittinen malli, ovat harvinaisia, mikä vaikeuttaa agenttien mallipohjaisten strategioiden hyödyntämistä. Tämän seurauksena mallittomat lähestymistavat ovat yleistyneet ja niitä on tutkittu laajasti vahvistusoppimisen tutkimuksessa ja sovelluksissa.

Politiikka

Note
Määritelmä

Politiikka π\pi on strategia, jonka agentti noudattaa valitakseen toimintonsa ympäristön nykytilan perusteella.

Politiikkoja on kahta tyyppiä:

  • Deterministinen politiikka: agentti valitsee aina saman toiminnon tietylle tilalle;
  • Stokastinen politiikka: agentti valitsee toimintoja todennäköisyysjakaumien perusteella.

Oppimisprosessin aikana agentin tavoitteena on löytää optimaalinen politiikka. Optimaalinen politiikka on sellainen, joka maksimoi odotetun tuoton, ohjaten agenttia tekemään parhaat mahdolliset päätökset missä tahansa annetussa tilassa.

Arvofunktiot

Arvofunktiot ovat keskeisiä agentin arvioidessa tietyn tilan tai tila-toimintaparin potentiaalia. Niitä käytetään arvioimaan tulevia odotettuja palkkioita, mikä auttaa agenttia tekemään perusteltuja päätöksiä.

Tilaarvofunktio

Note
Määritelmä

Tilaarvofunktio VV (tai vv) on funktio, joka antaa odotetun tuoton ollessa tietyssä tilassa ja noudattaen tiettyä politiikkaa. Se auttaa arvioimaan tilojen toivottavuutta.

Tilaarvon voi esittää matemaattisesti seuraavasti:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilatoiminto-arvofunktio

Note
Määritelmä

Tilatoiminto-arvofunktio QQ (tai qq) on funktio, joka antaa odotetun tuoton suoritettaessa tietty toiminto tietyssä tilassa ja noudattamalla tämän jälkeen tiettyä politiikkaa. Se auttaa arvioimaan toimintojen mielekkyyttä eri tiloissa.

Tilatoiminto-arvofunktiota kutsutaan usein myös toimintoarvofunktioksi.

Toiminnon arvo voidaan esittää matemaattisesti seuraavasti:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Mallin, politiikan ja arvofunktioiden välinen suhde

Käsitteet malli, politiikka ja arvofunktiot ovat tiiviisti yhteydessä toisiinsa, muodostaen kattavan viitekehyksen RL-algoritmien luokittelulle. Tämä viitekehys määritellään kahden pääakselin avulla:

  • Oppimisen kohde: tämä akseli kuvaa RL-algoritmien kirjoa niiden riippuvuuden perusteella arvofunktioihin, politiikkafunktioihin tai molempiin;
  • Mallin käyttö: tämä akseli erottaa algoritmit sen perusteella, käyttävätkö ne ympäristön mallia vai oppivatko ne pelkästään vuorovaikutuksen kautta.

Yhdistämällä nämä ulottuvuudet voimme luokitella RL-algoritmit erillisiin kategorioihin, joilla jokaisella on omat ominaisuutensa ja ihanteelliset käyttötapauksensa. Näiden suhteiden ymmärtäminen auttaa valitsemaan sopivan algoritmin tiettyihin tehtäviin, varmistaen tehokkaan oppimisen ja päätöksenteon.

question-icon

Täydennä lauseet

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Malli, Politiikka ja Arvot

Malli

Note
Määritelmä

Malli on ympäristön esitys, joka määrittelee tilojen välisten siirtymätodennäköisyydet ja odotetut palkkiot suoritetuista toiminnoista.

Vahvistusoppimisalgoritmit voidaan jakaa kahteen kategoriaan:

  • Mallipohjaiset: tässä lähestymistavassa agentti oppii tai sillä on käytössään ympäristön malli, jonka avulla se voi simuloida tulevia tiloja ja palkkioita ennen toiminnan suorittamista. Tämä mahdollistaa agentille suunnittelun ja perustellumman päätöksenteon;
  • Mallittomat: tässä lähestymistavassa agentilla ei ole suoraa mallia ympäristöstä. Se oppii ainoastaan vuorovaikutuksen kautta ympäristön kanssa, luottaen kokeiluun ja erehdykseen parhaiden toimintojen löytämiseksi.

Käytännössä ympäristöt, joissa on eksplisiittinen malli, ovat harvinaisia, mikä vaikeuttaa agenttien mallipohjaisten strategioiden hyödyntämistä. Tämän seurauksena mallittomat lähestymistavat ovat yleistyneet ja niitä on tutkittu laajasti vahvistusoppimisen tutkimuksessa ja sovelluksissa.

Politiikka

Note
Määritelmä

Politiikka π\pi on strategia, jonka agentti noudattaa valitakseen toimintonsa ympäristön nykytilan perusteella.

Politiikkoja on kahta tyyppiä:

  • Deterministinen politiikka: agentti valitsee aina saman toiminnon tietylle tilalle;
  • Stokastinen politiikka: agentti valitsee toimintoja todennäköisyysjakaumien perusteella.

Oppimisprosessin aikana agentin tavoitteena on löytää optimaalinen politiikka. Optimaalinen politiikka on sellainen, joka maksimoi odotetun tuoton, ohjaten agenttia tekemään parhaat mahdolliset päätökset missä tahansa annetussa tilassa.

Arvofunktiot

Arvofunktiot ovat keskeisiä agentin arvioidessa tietyn tilan tai tila-toimintaparin potentiaalia. Niitä käytetään arvioimaan tulevia odotettuja palkkioita, mikä auttaa agenttia tekemään perusteltuja päätöksiä.

Tilaarvofunktio

Note
Määritelmä

Tilaarvofunktio VV (tai vv) on funktio, joka antaa odotetun tuoton ollessa tietyssä tilassa ja noudattaen tiettyä politiikkaa. Se auttaa arvioimaan tilojen toivottavuutta.

Tilaarvon voi esittää matemaattisesti seuraavasti:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilatoiminto-arvofunktio

Note
Määritelmä

Tilatoiminto-arvofunktio QQ (tai qq) on funktio, joka antaa odotetun tuoton suoritettaessa tietty toiminto tietyssä tilassa ja noudattamalla tämän jälkeen tiettyä politiikkaa. Se auttaa arvioimaan toimintojen mielekkyyttä eri tiloissa.

Tilatoiminto-arvofunktiota kutsutaan usein myös toimintoarvofunktioksi.

Toiminnon arvo voidaan esittää matemaattisesti seuraavasti:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Mallin, politiikan ja arvofunktioiden välinen suhde

Käsitteet malli, politiikka ja arvofunktiot ovat tiiviisti yhteydessä toisiinsa, muodostaen kattavan viitekehyksen RL-algoritmien luokittelulle. Tämä viitekehys määritellään kahden pääakselin avulla:

  • Oppimisen kohde: tämä akseli kuvaa RL-algoritmien kirjoa niiden riippuvuuden perusteella arvofunktioihin, politiikkafunktioihin tai molempiin;
  • Mallin käyttö: tämä akseli erottaa algoritmit sen perusteella, käyttävätkö ne ympäristön mallia vai oppivatko ne pelkästään vuorovaikutuksen kautta.

Yhdistämällä nämä ulottuvuudet voimme luokitella RL-algoritmit erillisiin kategorioihin, joilla jokaisella on omat ominaisuutensa ja ihanteelliset käyttötapauksensa. Näiden suhteiden ymmärtäminen auttaa valitsemaan sopivan algoritmin tiettyihin tehtäviin, varmistaen tehokkaan oppimisen ja päätöksenteon.

question-icon

Täydennä lauseet

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5
some-alt