Summary  
Demonstrates how to use Gymnasium’s standardized API to instantiate and manage reinforcement learning environments—resetting them, sampling actions, stepping through states to receive observations, rewards, and termination flags, and finally closing the environment.

General domain of usage  
Reinforcement learning experimentation and agent evaluation.

<a href="https://gymnasium.farama.org/" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> Gymnasium</a> er et åpen kildekode-verktøysett utviklet for å utvikle og evaluere forsterkningslæringsagenter (RL-agenter). Det tilbyr en samling av standardiserte miljøer for effektiv testing av algoritmer og trening av agenter.

- **Standardisert API**: sikrer kompatibilitet på tvers av ulike miljøer;
- **Variasjon av miljøer**: støtter klassiske kontrollproblemer, Atari-spill og robotikk-simuleringer;
- **Enkel integrasjon**: kompatibel med dyp læringsrammeverk som TensorFlow og PyTorch.

En typisk arbeidsflyt i Gymnasium ser slik ut:

#### 1. Importer biblioteket

```python
import gymnasium as gym
```

Etter at det opprinnelige `gym`-biblioteket ble avviklet, anbefales det nå å bruke `gymnasium` — en godt vedlikeholdt og aktivt utviklet forgrening av gym. Til tross for navneendringen importeres biblioteket ofte fortsatt med aliaset `gym` for bakoverkompatibilitet og bekvemmelighet.

#### 2. Opprett et miljø

```python
env = gym.make("CartPole-v1")
```

Funksjonen `gym.make()` oppretter et miljø ved å bruke dets unike identifikator (f.eks. `"CartPole-v1"`). Du kan også sende med ekstra konfigurasjonsparametere avhengig av miljøets krav.

#### 3. Tilbakestill miljøet

```python
observation, info = env.reset()
```

Før du samhandler med miljøet, må du tilbakestille det til starttilstanden ved å bruke `env.reset()`. Dette returnerer:
- `observation`: starttilstanden til miljøet;
- `info`: tilleggsdata som kan inkludere metadata eller tilstandsspesifikk konfigurasjon.

#### 4. Samhandle med miljøet

```python
action = env.action_space.sample()
observation, reward, terminated, truncated, info = env.step(action)
```

I første linje velges en tilfeldig handling fra **action space** ved å bruke `env.action_space.sample()`. **Action space** definerer settet av alle mulige handlinger agenten kan utføre i miljøet. I tillegg tilbyr miljøet **observation space**, som kan nås via `env.observation_space` og representerer settet av alle mulige observasjoner (tilstander) agenten kan oppleve.

I andre linje sendes den valgte handlingen til `env.step(action)`, som utfører handlingen og returnerer følgende:
- `observation`: agentens nye tilstand etter handlingen;
- `reward`: belønningen mottatt for handlingen;
- `terminated`: en boolsk verdi som indikerer om episoden er avsluttet (dvs. oppgaven er fullført);
- `truncated`: en boolsk verdi som indikerer om episoden ble avbrutt (på grunn av tid eller andre begrensninger);
- `info`: ytterligere diagnostisk informasjon, ofte brukt til feilsøking eller logging.

#### 5. Lukk miljøet

```python
env.close()
```

Hvis miljøet ditt bruker eksterne ressurser (f.eks. renderingsvinduer eller simuleringer), bør du lukke det med `env.close()`.

Hvis du ønsker å vite mer om funksjonene som tilbys av Gymnasium-biblioteket, bør du besøke [<svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> their website](https://gymnasium.farama.org/).

Studer mer

Reinforcement Learning (RL) er en kraftig gren av maskinlæring som fokuserer på å trene intelligente agenter gjennom interaksjon med sitt miljø. I dette kurset lærer du hvordan agenter gradvis oppdager effektive atferder gjennom prøving og feiling. Du starter med grunnleggende konsepter som Markov beslutningsprosesser og multi-armede banditter, og fortsetter med dynamisk programmering, Monte Carlo-metoder og temporal difference-læring.

Lær hvordan man trener agenter til å ta optimale beslutninger gjennom prøving og feiling. Utforsk det grunnleggende innenfor teori om forsterkende læring. Få praktisk erfaring med å sette opp og kjøre et Gymnasium-miljø.

Forstå utforskning-utnyttelse-avveiningen gjennom multi-armet bandittproblem. Implementering av handlingsverdiestimering, ε-grådig, øvre konfidensgrense og gradient-bandittmetoder. Evaluering av algoritmers ytelse på simulerte belønningsmaksimeringsoppgaver.

Behersk dynamisk programmering for modellbasert RL. Oppdag hvordan Bellman-likninger kan brukes til å evaluere og forbedre policyer. Implementering av policy- og verdiiterasjonsalgoritmer. Utforsk generalisert policyiterasjon som det teoretiske grunnlaget for modellfrie metoder.

Behersk Monte Carlo-metoder for modellfri RL. Estimer verdifunksjoner og utled optimale policyer fra fullstendige episoder. Implementer on-policy og off-policy Monte Carlo-kontrollalgoritmer. Utforsk strategier for utforskning for å optimalisere modellfri læring.

Behersk temporal difference-læring for modellfri RL. Estimeringsmetoder for verdifunksjoner fra delvise episoder ved bruk av TD(0)-oppdateringer. Implementering av on-policy SARSA og off-policy Q-Learning-algoritmer. Utforsk hvordan Monte Carlo-metoder og TD-læring kombineres i n-trinns TD og TD(λ).

Grunnleggende om Gymnasium

Nøkkelfunksjoner

Arbeidsflyt

1. Importer biblioteket

2. Opprett et miljø

3. Tilbakestill miljøet

4. Samhandle med miljøet

5. Lukk miljøet