Gymnasium Grundlæggende
Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.
Nøglefunktioner
- Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
- Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
- Nem integration: kompatibel med deep learning-rammeværker som TensorFlow og PyTorch.
Arbejdsgang
En typisk arbejdsgang i Gymnasium ser således ud:
1. Importér biblioteket
import gymnasium as gym
Efter det oprindelige gym-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium — en vedligeholdt og aktivt udviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym for bagudkompatibilitet og bekvemmelighed.
2. Opret et miljø
env = gym.make("CartPole-v1")
Funktionen gym.make() opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.
3. Nulstil miljøet
observation, info = env.reset()
Før du interagerer med miljøet, skal du nulstille det til dets starttilstand med env.reset(). Dette returnerer:
observation: miljøets starttilstand;info: hjælpeoplysninger, som kan inkludere metadata eller tilstandsspecifik konfiguration.
4. Interagér med miljøet
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample(). Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.
I anden linje sendes den valgte handling til env.step(action), som udfører handlingen og returnerer følgende:
observation: agentens nye tilstand efter handlingen;reward: belønningen for den udførte handling;terminated: en boolsk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);truncated: en boolsk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);info: yderligere diagnostiske oplysninger, ofte brugt til fejlfinding eller logning.
5. Luk miljøet
env.close()
Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close().
Hvis du vil vide mere om funktionerne i Gymnasium-biblioteket, bør du besøge their website.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
Gymnasium Grundlæggende
Stryg for at vise menuen
Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.
Nøglefunktioner
- Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
- Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
- Nem integration: kompatibel med deep learning-rammeværker som TensorFlow og PyTorch.
Arbejdsgang
En typisk arbejdsgang i Gymnasium ser således ud:
1. Importér biblioteket
import gymnasium as gym
Efter det oprindelige gym-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium — en vedligeholdt og aktivt udviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym for bagudkompatibilitet og bekvemmelighed.
2. Opret et miljø
env = gym.make("CartPole-v1")
Funktionen gym.make() opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.
3. Nulstil miljøet
observation, info = env.reset()
Før du interagerer med miljøet, skal du nulstille det til dets starttilstand med env.reset(). Dette returnerer:
observation: miljøets starttilstand;info: hjælpeoplysninger, som kan inkludere metadata eller tilstandsspecifik konfiguration.
4. Interagér med miljøet
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample(). Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.
I anden linje sendes den valgte handling til env.step(action), som udfører handlingen og returnerer følgende:
observation: agentens nye tilstand efter handlingen;reward: belønningen for den udførte handling;terminated: en boolsk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);truncated: en boolsk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);info: yderligere diagnostiske oplysninger, ofte brugt til fejlfinding eller logning.
5. Luk miljøet
env.close()
Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close().
Hvis du vil vide mere om funktionerne i Gymnasium-biblioteket, bør du besøge their website.
Tak for dine kommentarer!