Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Gymnasium Grundlæggende | RL Kerneprincipper
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Gymnasium Grundlæggende

Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.

Nøglefunktioner

  • Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
  • Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
  • Nem integration: kompatibel med deep learning-rammeværk som TensorFlow og PyTorch.

Arbejdsgang

En typisk arbejdsgang i Gymnasium ser således ud:

1. Importér biblioteket

import gymnasium as gym

Efter det oprindelige gym-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium — en aktivt vedligeholdt og videreudviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym for bagudkompatibilitet og bekvemmelighed.

2. Opret et miljø

env = gym.make("CartPole-v1")

Funktionen gym.make() opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.

3. Nulstil miljøet

observation, info = env.reset()

Før du interagerer med miljøet, skal det nulstilles til dets starttilstand med env.reset(). Dette returnerer:

  • observation: miljøets starttilstand;
  • info: supplerende data, som kan inkludere metadata eller tilstandsspecifik konfiguration.

4. Interager med miljøet

action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)

I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample(). Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.

I anden linje sendes den valgte handling til env.step(action), som udfører handlingen og returnerer følgende:

  • observation: agentens nye tilstand efter handlingen;
  • reward: belønningen for den udførte handling;
  • terminated: en boolesk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);
  • truncated: en boolesk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);
  • info: yderligere diagnostisk information, ofte brugt til fejlfinding eller logning.

5. Luk miljøet

env.close()

Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close().

Note
Læs mere

Hvis du vil vide mere om funktionerne, der tilbydes af Gymnasium-biblioteket, bør du besøge their website.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 7

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Gymnasium Grundlæggende

Gymnasium er et open source-værktøjssæt designet til udvikling og evaluering af reinforcement learning (RL) agenter. Det tilbyder en samling af standardmiljøer til effektiv test af algoritmer og træning af agenter.

Nøglefunktioner

  • Standardiseret API: sikrer kompatibilitet på tværs af forskellige miljøer;
  • Variation af miljøer: understøtter klassiske kontrolproblemer, Atari-spil og robotiksimuleringer;
  • Nem integration: kompatibel med deep learning-rammeværk som TensorFlow og PyTorch.

Arbejdsgang

En typisk arbejdsgang i Gymnasium ser således ud:

1. Importér biblioteket

import gymnasium as gym

Efter det oprindelige gym-bibliotek blev afbrudt, anbefales det nu at bruge gymnasium — en aktivt vedligeholdt og videreudviklet fork af gym. På trods af navneændringen importeres biblioteket stadig ofte med aliaset gym for bagudkompatibilitet og bekvemmelighed.

2. Opret et miljø

env = gym.make("CartPole-v1")

Funktionen gym.make() opretter et miljø ved hjælp af dets unikke identifikator (f.eks. "CartPole-v1"). Du kan også angive yderligere konfigurationsparametre afhængigt af miljøets krav.

3. Nulstil miljøet

observation, info = env.reset()

Før du interagerer med miljøet, skal det nulstilles til dets starttilstand med env.reset(). Dette returnerer:

  • observation: miljøets starttilstand;
  • info: supplerende data, som kan inkludere metadata eller tilstandsspecifik konfiguration.

4. Interager med miljøet

action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)

I første linje vælges en tilfældig handling fra action space ved hjælp af env.action_space.sample(). Action space definerer mængden af alle mulige handlinger, agenten kan udføre i miljøet. Derudover tilbyder miljøet observation space, som kan tilgås via env.observation_space og repræsenterer mængden af alle mulige observationer (tilstande), agenten kan opleve.

I anden linje sendes den valgte handling til env.step(action), som udfører handlingen og returnerer følgende:

  • observation: agentens nye tilstand efter handlingen;
  • reward: belønningen for den udførte handling;
  • terminated: en boolesk værdi, der angiver, om episoden er afsluttet (dvs. opgaven er fuldført);
  • truncated: en boolesk værdi, der angiver, om episoden blev afbrudt før tid (på grund af tid eller andre begrænsninger);
  • info: yderligere diagnostisk information, ofte brugt til fejlfinding eller logning.

5. Luk miljøet

env.close()

Hvis dit miljø bruger eksterne ressourcer (f.eks. renderingsvinduer eller simulationer), bør du lukke det med env.close().

Note
Læs mere

Hvis du vil vide mere om funktionerne, der tilbydes af Gymnasium-biblioteket, bør du besøge their website.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 7
some-alt