Lære Gymnasium Grundlæggende

Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.

Nøglefunktioner

Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
Nem integration: kompatibel med deep learning-rammeværker som TensorFlow og PyTorch.

Arbejdsgang

En typisk arbejdsgang i Gymnasium ser således ud:

1. Importér biblioteket

import gymnasium as gym

Efter det oprindelige gym-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium — en vedligeholdt og aktivt udviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym for bagudkompatibilitet og bekvemmelighed.

2. Opret et miljø

env = gym.make("CartPole-v1")

Funktionen gym.make() opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.

3. Nulstil miljøet

observation, info = env.reset()

Før du interagerer med miljøet, skal du nulstille det til dets starttilstand med env.reset(). Dette returnerer:

observation: miljøets starttilstand;
info: hjælpeoplysninger, som kan inkludere metadata eller tilstandsspecifik konfiguration.

4. Interagér med miljøet

action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)

I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample(). Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.

I anden linje sendes den valgte handling til env.step(action), som udfører handlingen og returnerer følgende:

observation: agentens nye tilstand efter handlingen;
reward: belønningen for den udførte handling;
terminated: en boolsk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);
truncated: en boolsk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);
info: yderligere diagnostiske oplysninger, ofte brugt til fejlfinding eller logning.

5. Luk miljøet

env.close()

Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close().

Læs Mere

Hvis du vil vide mere om funktionerne i Gymnasium-biblioteket, bør du besøge their website.

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 7

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen