Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Gymnasium Grundlæggende
Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.
Nøglefunktioner
- Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
- Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
- Nem integration: kompatibel med deep learning-rammeværk som TensorFlow og PyTorch.
Arbejdsgang
En typisk arbejdsgang i Gymnasium ser således ud:
1. Importér biblioteket
import gymnasium as gym
Efter det oprindelige gym
-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium
— en aktivt vedligeholdt og videreudviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym
for bagudkompatibilitet og bekvemmelighed.
2. Opret et miljø
env = gym.make("CartPole-v1")
Funktionen gym.make()
opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"
). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.
3. Nulstil miljøet
observation, info = env.reset()
Før du interagerer med miljøet, skal det nulstilles til dets starttilstand med env.reset()
. Dette returnerer:
observation
: miljøets starttilstand;info
: supplerende data, som kan inkludere metadata eller tilstandsspecifik konfiguration.
4. Interager med miljøet
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample()
. Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space
og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.
I anden linje sendes den valgte handling til env.step(action)
, som udfører handlingen og returnerer følgende:
observation
: agentens nye tilstand efter handlingen;reward
: belønningen for den udførte handling;terminated
: en boolesk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);truncated
: en boolesk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);info
: yderligere diagnostisk information, ofte brugt til fejlfinding eller logning.
5. Luk miljøet
env.close()
Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close()
.
Hvis du vil vide mere om funktionerne, der tilbydes af Gymnasium-biblioteket, bør du besøge their website.
Tak for dine kommentarer!