Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Markovin Päätösprosessi | RL:n Ydinteoria
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Markovin Päätösprosessi

Note
Määritelmä

Markovin päätösprosessi (MDP) on matemaattinen viitekehys, jota käytetään päätöksentekoon liittyvien ongelmien mallintamiseen, joissa agentti on vuorovaikutuksessa ympäristön kanssa ajan kuluessa.

Vahvistusoppimisen ongelmat esitetään usein MDP:nä, joka tarjoaa jäsennellyn tavan määritellä ongelma. MDP:t kuvaavat ympäristön käyttäen neljää keskeistä osaa: tilat, toiminnot, siirtymät ja palkkiot. Nämä osat toimivat yhdessä Markovin ominaisuuden mukaisesti, mikä varmistaa, että tuleva tila riippuu ainoastaan nykyisestä tilasta ja toiminnosta, ei aiemmista tiloista.

Neljä osaa

Tila

Note
Määritelmä

Tila ss on ympäristön esitys tietyllä ajanhetkellä. Kaikkien mahdollisten tilojen joukkoa kutsutaan tilajoukoksi SS.

Tila esitetään tyypillisesti joukolla parametreja, jotka kuvaavat ympäristön olennaiset ominaisuudet. Näihin parametreihin voi sisältyä esimerkiksi sijainti, nopeus, kulma jne.

Toiminto

Note
Määritelmä

Toiminto aa on päätös tai siirto, jonka agentti tekee vaikuttaakseen ympäristöön. Kaikkien mahdollisten toimintojen joukkoa kutsutaan toimintotilaksi AA.

Mahdollisten toimintojen joukko riippuu yleensä nykyisestä tilasta.

Siirtymä

Note
Määritelmä

Siirtymä kuvaa, miten ympäristön tila muuttuu agentin toiminnan seurauksena. Siirtymäfunktio pp määrittää todennäköisyyden siirtyä tilasta toiseen tietyn toiminnon perusteella.

Monissa tapauksissa ympäristöt voivat olla joko deterministisiä tai stokastisia, mikä tarkoittaa, että siirtymä voi olla ennustettavissa tai siihen voi liittyä satunnaisuutta.

Palkkio

Note
Määritelmä

Palkkio rr on numeerinen arvo, jonka agentti saa suoritettuaan toiminnon tietyssä tilassa. Funktiota, joka yhdistää siirtymät odotettuihin palkkioihin, kutsutaan palkkiofunktioksi RR.

Palkkiot ohjaavat agenttia kohti toivottua käyttäytymistä, ja ne voivat olla joko positiivisia tai negatiivisia. Palkkioiden suunnittelu on monimutkaista, sillä agentti saattaa pyrkiä hyödyntämään palkkioita.

Markovin ominaisuus

Markovin ominaisuus Markovin päätösprosessissa tarkoittaa, että seuraava tila ja palkkio riippuvat ainoastaan nykyisestä tilasta ja toiminnosta, eivät aiemmista tiedoista. Tämä takaa muistittoman rakenteen, mikä yksinkertaistaa oppimisprosessia.

Matemaattisesti tämä ominaisuus voidaan esittää seuraavalla kaavalla:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

missä:

  • StS_t on tila ajanhetkellä tt;
  • AtA_t on toiminto ajanhetkellä tt;
  • RtR_t on palkkio ajanhetkellä tt.
Note
Huomio

MDP:n muistiton luonne ei tarkoita, että aiemmat havainnot jätetään huomiotta. Nykyisen tilan tulee sisältää kaikki olennaiset historialliset tiedot.

question mark

Kuvittele, että agentti pelaa peliä. Mikä seuraavista on hyvä esitys ympäristön tilasta Markovin päätösprosessissa (MDP)?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Markovin Päätösprosessi

Note
Määritelmä

Markovin päätösprosessi (MDP) on matemaattinen viitekehys, jota käytetään päätöksentekoon liittyvien ongelmien mallintamiseen, joissa agentti on vuorovaikutuksessa ympäristön kanssa ajan kuluessa.

Vahvistusoppimisen ongelmat esitetään usein MDP:nä, joka tarjoaa jäsennellyn tavan määritellä ongelma. MDP:t kuvaavat ympäristön käyttäen neljää keskeistä osaa: tilat, toiminnot, siirtymät ja palkkiot. Nämä osat toimivat yhdessä Markovin ominaisuuden mukaisesti, mikä varmistaa, että tuleva tila riippuu ainoastaan nykyisestä tilasta ja toiminnosta, ei aiemmista tiloista.

Neljä osaa

Tila

Note
Määritelmä

Tila ss on ympäristön esitys tietyllä ajanhetkellä. Kaikkien mahdollisten tilojen joukkoa kutsutaan tilajoukoksi SS.

Tila esitetään tyypillisesti joukolla parametreja, jotka kuvaavat ympäristön olennaiset ominaisuudet. Näihin parametreihin voi sisältyä esimerkiksi sijainti, nopeus, kulma jne.

Toiminto

Note
Määritelmä

Toiminto aa on päätös tai siirto, jonka agentti tekee vaikuttaakseen ympäristöön. Kaikkien mahdollisten toimintojen joukkoa kutsutaan toimintotilaksi AA.

Mahdollisten toimintojen joukko riippuu yleensä nykyisestä tilasta.

Siirtymä

Note
Määritelmä

Siirtymä kuvaa, miten ympäristön tila muuttuu agentin toiminnan seurauksena. Siirtymäfunktio pp määrittää todennäköisyyden siirtyä tilasta toiseen tietyn toiminnon perusteella.

Monissa tapauksissa ympäristöt voivat olla joko deterministisiä tai stokastisia, mikä tarkoittaa, että siirtymä voi olla ennustettavissa tai siihen voi liittyä satunnaisuutta.

Palkkio

Note
Määritelmä

Palkkio rr on numeerinen arvo, jonka agentti saa suoritettuaan toiminnon tietyssä tilassa. Funktiota, joka yhdistää siirtymät odotettuihin palkkioihin, kutsutaan palkkiofunktioksi RR.

Palkkiot ohjaavat agenttia kohti toivottua käyttäytymistä, ja ne voivat olla joko positiivisia tai negatiivisia. Palkkioiden suunnittelu on monimutkaista, sillä agentti saattaa pyrkiä hyödyntämään palkkioita.

Markovin ominaisuus

Markovin ominaisuus Markovin päätösprosessissa tarkoittaa, että seuraava tila ja palkkio riippuvat ainoastaan nykyisestä tilasta ja toiminnosta, eivät aiemmista tiedoista. Tämä takaa muistittoman rakenteen, mikä yksinkertaistaa oppimisprosessia.

Matemaattisesti tämä ominaisuus voidaan esittää seuraavalla kaavalla:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

missä:

  • StS_t on tila ajanhetkellä tt;
  • AtA_t on toiminto ajanhetkellä tt;
  • RtR_t on palkkio ajanhetkellä tt.
Note
Huomio

MDP:n muistiton luonne ei tarkoita, että aiemmat havainnot jätetään huomiotta. Nykyisen tilan tulee sisältää kaikki olennaiset historialliset tiedot.

question mark

Kuvittele, että agentti pelaa peliä. Mikä seuraavista on hyvä esitys ympäristön tilasta Markovin päätösprosessissa (MDP)?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 3
some-alt