Gymnasium Basisprincipes
Gymnasium is een open-source toolkit die is ontworpen voor het ontwikkelen en evalueren van reinforcement learning (RL) agenten. Het biedt een verzameling standaardomgevingen voor het testen van algoritmen en het efficiënt trainen van agenten.
Belangrijkste kenmerken
- Gestandaardiseerde API: waarborgt compatibiliteit tussen verschillende omgevingen;
- Verscheidenheid aan omgevingen: ondersteunt klassieke controleproblemen, Atari-spellen en roboticasimulaties;
- Eenvoudige integratie: compatibel met deep learning-frameworks zoals TensorFlow en PyTorch.
Workflow
Een typisch workflow in Gymnasium ziet er als volgt uit:
1. Importeer de bibliotheek
import gymnasium as gym
Na het stopzetten van de oorspronkelijke gym
-bibliotheek wordt nu aanbevolen om gymnasium
te gebruiken — een goed onderhouden en actief ontwikkelde fork van gym. Ondanks de naamswijziging wordt de bibliotheek nog steeds vaak geïmporteerd met het alias gym
voor achterwaartse compatibiliteit en gemak.
2. Maak een omgeving aan
env = gym.make("CartPole-v1")
De functie gym.make()
maakt een omgeving aan met behulp van zijn unieke identificatie (bijvoorbeeld "CartPole-v1"
). Je kunt ook extra configuratieparameters meegeven, afhankelijk van de vereisten van de omgeving.
3. Reset de omgeving
observation, info = env.reset()
Voordat je met de omgeving interacteert, moet je deze resetten naar de beginstaat met env.reset()
. Dit retourneert:
observation
: de beginstaat van de omgeving;info
: aanvullende gegevens die metadata of specifieke configuratie van de staat kunnen bevatten.
4. Interactie met de omgeving
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
In de eerste regel wordt een willekeurige actie gekozen uit de actie-ruimte met env.action_space.sample()
. De actie-ruimte definieert de verzameling van alle mogelijke acties die de agent in de omgeving kan uitvoeren. Daarnaast biedt de omgeving de observatie-ruimte, toegankelijk via env.observation_space
, die de verzameling van alle mogelijke observaties (toestanden) weergeeft die de agent kan tegenkomen.
In de tweede regel wordt de gekozen actie doorgegeven aan env.step(action)
, die de actie uitvoert en het volgende retourneert:
observation
: de nieuwe toestand van de agent na het uitvoeren van de actie;reward
: de beloning ontvangen voor de uitgevoerde actie;terminated
: een boolean die aangeeft of de episode is beëindigd (d.w.z. de taak is voltooid);truncated
: een boolean die aangeeft of de episode voortijdig is gestopt (vanwege tijd of andere beperkingen);info
: aanvullende diagnostische informatie, vaak gebruikt voor debugging of logging.
5. Sluit de omgeving af
env.close()
Als je omgeving externe bronnen gebruikt (zoals render-vensters of simulaties), moet je deze afsluiten met env.close()
.
Als je meer wilt weten over de functies die door de Gymnasium-bibliotheek worden aangeboden, bezoek dan their website.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
What are some popular environments available in Gymnasium?
Can you explain the difference between terminated and truncated in more detail?
How do I integrate Gymnasium with TensorFlow or PyTorch?
Awesome!
Completion rate improved to 2.7
Gymnasium Basisprincipes
Veeg om het menu te tonen
Gymnasium is een open-source toolkit die is ontworpen voor het ontwikkelen en evalueren van reinforcement learning (RL) agenten. Het biedt een verzameling standaardomgevingen voor het testen van algoritmen en het efficiënt trainen van agenten.
Belangrijkste kenmerken
- Gestandaardiseerde API: waarborgt compatibiliteit tussen verschillende omgevingen;
- Verscheidenheid aan omgevingen: ondersteunt klassieke controleproblemen, Atari-spellen en roboticasimulaties;
- Eenvoudige integratie: compatibel met deep learning-frameworks zoals TensorFlow en PyTorch.
Workflow
Een typisch workflow in Gymnasium ziet er als volgt uit:
1. Importeer de bibliotheek
import gymnasium as gym
Na het stopzetten van de oorspronkelijke gym
-bibliotheek wordt nu aanbevolen om gymnasium
te gebruiken — een goed onderhouden en actief ontwikkelde fork van gym. Ondanks de naamswijziging wordt de bibliotheek nog steeds vaak geïmporteerd met het alias gym
voor achterwaartse compatibiliteit en gemak.
2. Maak een omgeving aan
env = gym.make("CartPole-v1")
De functie gym.make()
maakt een omgeving aan met behulp van zijn unieke identificatie (bijvoorbeeld "CartPole-v1"
). Je kunt ook extra configuratieparameters meegeven, afhankelijk van de vereisten van de omgeving.
3. Reset de omgeving
observation, info = env.reset()
Voordat je met de omgeving interacteert, moet je deze resetten naar de beginstaat met env.reset()
. Dit retourneert:
observation
: de beginstaat van de omgeving;info
: aanvullende gegevens die metadata of specifieke configuratie van de staat kunnen bevatten.
4. Interactie met de omgeving
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
In de eerste regel wordt een willekeurige actie gekozen uit de actie-ruimte met env.action_space.sample()
. De actie-ruimte definieert de verzameling van alle mogelijke acties die de agent in de omgeving kan uitvoeren. Daarnaast biedt de omgeving de observatie-ruimte, toegankelijk via env.observation_space
, die de verzameling van alle mogelijke observaties (toestanden) weergeeft die de agent kan tegenkomen.
In de tweede regel wordt de gekozen actie doorgegeven aan env.step(action)
, die de actie uitvoert en het volgende retourneert:
observation
: de nieuwe toestand van de agent na het uitvoeren van de actie;reward
: de beloning ontvangen voor de uitgevoerde actie;terminated
: een boolean die aangeeft of de episode is beëindigd (d.w.z. de taak is voltooid);truncated
: een boolean die aangeeft of de episode voortijdig is gestopt (vanwege tijd of andere beperkingen);info
: aanvullende diagnostische informatie, vaak gebruikt voor debugging of logging.
5. Sluit de omgeving af
env.close()
Als je omgeving externe bronnen gebruikt (zoals render-vensters of simulaties), moet je deze afsluiten met env.close()
.
Als je meer wilt weten over de functies die door de Gymnasium-bibliotheek worden aangeboden, bezoek dan their website.
Bedankt voor je feedback!