Gymnasium Grundlæggende
Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.
Nøglefunktioner
- Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
- Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
- Nem integration: kompatibel med deep learning-rammeværk som TensorFlow og PyTorch.
Arbejdsgang
En typisk arbejdsgang i Gymnasium ser således ud:
1. Importér biblioteket
import gymnasium as gym
Efter det oprindelige gym
-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium
— en aktivt vedligeholdt og videreudviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym
for bagudkompatibilitet og bekvemmelighed.
2. Opret et miljø
env = gym.make("CartPole-v1")
Funktionen gym.make()
opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"
). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.
3. Nulstil miljøet
observation, info = env.reset()
Før du interagerer med miljøet, skal det nulstilles til dets starttilstand med env.reset()
. Dette returnerer:
observation
: miljøets starttilstand;info
: supplerende data, som kan inkludere metadata eller tilstandsspecifik konfiguration.
4. Interager med miljøet
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample()
. Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space
og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.
I anden linje sendes den valgte handling til env.step(action)
, som udfører handlingen og returnerer følgende:
observation
: agentens nye tilstand efter handlingen;reward
: belønningen for den udførte handling;terminated
: en boolesk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);truncated
: en boolesk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);info
: yderligere diagnostisk information, ofte brugt til fejlfinding eller logning.
5. Luk miljøet
env.close()
Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close()
.
Hvis du vil vide mere om funktionerne, der tilbydes af Gymnasium-biblioteket, bør du besøge their website.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
Gymnasium Grundlæggende
Stryg for at vise menuen
Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.
Nøglefunktioner
- Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
- Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
- Nem integration: kompatibel med deep learning-rammeværk som TensorFlow og PyTorch.
Arbejdsgang
En typisk arbejdsgang i Gymnasium ser således ud:
1. Importér biblioteket
import gymnasium as gym
Efter det oprindelige gym
-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium
— en aktivt vedligeholdt og videreudviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym
for bagudkompatibilitet og bekvemmelighed.
2. Opret et miljø
env = gym.make("CartPole-v1")
Funktionen gym.make()
opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"
). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.
3. Nulstil miljøet
observation, info = env.reset()
Før du interagerer med miljøet, skal det nulstilles til dets starttilstand med env.reset()
. Dette returnerer:
observation
: miljøets starttilstand;info
: supplerende data, som kan inkludere metadata eller tilstandsspecifik konfiguration.
4. Interager med miljøet
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample()
. Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space
og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.
I anden linje sendes den valgte handling til env.step(action)
, som udfører handlingen og returnerer følgende:
observation
: agentens nye tilstand efter handlingen;reward
: belønningen for den udførte handling;terminated
: en boolesk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);truncated
: en boolesk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);info
: yderligere diagnostisk information, ofte brugt til fejlfinding eller logning.
5. Luk miljøet
env.close()
Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close()
.
Hvis du vil vide mere om funktionerne, der tilbydes af Gymnasium-biblioteket, bør du besøge their website.
Tak for dine kommentarer!