Gymnasiumin Perusteet
Gymnasium on avoimen lähdekoodin työkalu, joka on suunniteltu vahvistusoppimisen (RL) agenttien kehittämiseen ja arviointiin. Se tarjoaa kokoelman standardoituja ympäristöjä algoritmien testaamiseen ja agenttien tehokkaaseen kouluttamiseen.
Keskeiset ominaisuudet
- Standardoitu API: varmistaa yhteensopivuuden eri ympäristöjen välillä;
- Monipuoliset ympäristöt: tukee klassisia ohjausongelmia, Atari-pelejä ja robotiikkasimulaatioita;
- Helppo integrointi: yhteensopiva syväoppimiskehysten, kuten TensorFlow ja PyTorch, kanssa.
Työnkulku
Tyypillinen työnkulku Gymnasiumissa etenee seuraavasti:
1. Kirjaston tuonti
import gymnasium as gym
Alkuperäisen gym
-kirjaston kehityksen loputtua suositellaan nyt käytettäväksi gymnasium
-kirjastoa, joka on aktiivisesti ylläpidetty ja kehitetty gymin haarukka. Nimestä huolimatta kirjasto tuodaan usein edelleen aliaksella gym
taaksepäin yhteensopivuuden ja helppouden vuoksi.
2. Ympäristön luominen
env = gym.make("CartPole-v1")
Funktion gym.make()
avulla luodaan ympäristö sen yksilöllisen tunnisteen perusteella (esim. "CartPole-v1"
). Lisäksi voidaan välittää muita konfiguraatioparametreja ympäristön vaatimusten mukaan.
3. Ympäristön nollaus
observation, info = env.reset()
Ennen vuorovaikutusta ympäristön kanssa se täytyy nollata alkuperäiseen tilaansa käyttämällä env.reset()
. Tämä palauttaa:
observation
: ympäristön alkutila;info
: apudataa, joka voi sisältää metatietoja tai tilakohtaisia asetuksia.
4. Vuorovaikutus ympäristön kanssa
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
Ensimmäisellä rivillä valitaan satunnainen toiminto toimintatilasta käyttäen env.action_space.sample()
. Toimintatila määrittelee kaikki mahdolliset toiminnot, joita agentti voi suorittaa ympäristössä. Lisäksi ympäristö tarjoaa havaintotilan, johon pääsee käsiksi env.observation_space
-attribuutin kautta ja joka kattaa kaikki mahdolliset havainnot (tilat), joita agentti voi kohdata.
Toisella rivillä valittu toiminto annetaan env.step(action)
-funktiolle, joka suorittaa toiminnon ja palauttaa seuraavat:
observation
: agentin uusi tila toiminnon jälkeen;reward
: toiminnosta saatu palkkio;terminated
: totuusarvo, joka ilmaisee, onko episodi päättynyt (eli tehtävä suoritettu loppuun);truncated
: totuusarvo, joka ilmaisee, onko episodi keskeytetty ennenaikaisesti (esim. ajan tai muiden rajoitteiden vuoksi);info
: lisädiagnostiikkatietoa, jota käytetään usein virheenkorjaukseen tai lokitukseen.
5. Ympäristön sulkeminen
env.close()
Jos ympäristö käyttää ulkoisia resursseja (esim. renderöintiruudut tai simulaatiot), se tulee sulkea env.close()
-komennolla.
Jos haluat tietää lisää Gymnasium-kirjaston tarjoamista ominaisuuksista, käy their website.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What are some popular environments available in Gymnasium?
Can you explain the difference between terminated and truncated in more detail?
How do I integrate Gymnasium with TensorFlow or PyTorch?
Awesome!
Completion rate improved to 2.7
Gymnasiumin Perusteet
Pyyhkäise näyttääksesi valikon
Gymnasium on avoimen lähdekoodin työkalu, joka on suunniteltu vahvistusoppimisen (RL) agenttien kehittämiseen ja arviointiin. Se tarjoaa kokoelman standardoituja ympäristöjä algoritmien testaamiseen ja agenttien tehokkaaseen kouluttamiseen.
Keskeiset ominaisuudet
- Standardoitu API: varmistaa yhteensopivuuden eri ympäristöjen välillä;
- Monipuoliset ympäristöt: tukee klassisia ohjausongelmia, Atari-pelejä ja robotiikkasimulaatioita;
- Helppo integrointi: yhteensopiva syväoppimiskehysten, kuten TensorFlow ja PyTorch, kanssa.
Työnkulku
Tyypillinen työnkulku Gymnasiumissa etenee seuraavasti:
1. Kirjaston tuonti
import gymnasium as gym
Alkuperäisen gym
-kirjaston kehityksen loputtua suositellaan nyt käytettäväksi gymnasium
-kirjastoa, joka on aktiivisesti ylläpidetty ja kehitetty gymin haarukka. Nimestä huolimatta kirjasto tuodaan usein edelleen aliaksella gym
taaksepäin yhteensopivuuden ja helppouden vuoksi.
2. Ympäristön luominen
env = gym.make("CartPole-v1")
Funktion gym.make()
avulla luodaan ympäristö sen yksilöllisen tunnisteen perusteella (esim. "CartPole-v1"
). Lisäksi voidaan välittää muita konfiguraatioparametreja ympäristön vaatimusten mukaan.
3. Ympäristön nollaus
observation, info = env.reset()
Ennen vuorovaikutusta ympäristön kanssa se täytyy nollata alkuperäiseen tilaansa käyttämällä env.reset()
. Tämä palauttaa:
observation
: ympäristön alkutila;info
: apudataa, joka voi sisältää metatietoja tai tilakohtaisia asetuksia.
4. Vuorovaikutus ympäristön kanssa
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
Ensimmäisellä rivillä valitaan satunnainen toiminto toimintatilasta käyttäen env.action_space.sample()
. Toimintatila määrittelee kaikki mahdolliset toiminnot, joita agentti voi suorittaa ympäristössä. Lisäksi ympäristö tarjoaa havaintotilan, johon pääsee käsiksi env.observation_space
-attribuutin kautta ja joka kattaa kaikki mahdolliset havainnot (tilat), joita agentti voi kohdata.
Toisella rivillä valittu toiminto annetaan env.step(action)
-funktiolle, joka suorittaa toiminnon ja palauttaa seuraavat:
observation
: agentin uusi tila toiminnon jälkeen;reward
: toiminnosta saatu palkkio;terminated
: totuusarvo, joka ilmaisee, onko episodi päättynyt (eli tehtävä suoritettu loppuun);truncated
: totuusarvo, joka ilmaisee, onko episodi keskeytetty ennenaikaisesti (esim. ajan tai muiden rajoitteiden vuoksi);info
: lisädiagnostiikkatietoa, jota käytetään usein virheenkorjaukseen tai lokitukseen.
5. Ympäristön sulkeminen
env.close()
Jos ympäristö käyttää ulkoisia resursseja (esim. renderöintiruudut tai simulaatiot), se tulee sulkea env.close()
-komennolla.
Jos haluat tietää lisää Gymnasium-kirjaston tarjoamista ominaisuuksista, käy their website.
Kiitos palautteestasi!