Summary  
This chapter covers the reinforcement learning paradigm, focusing on implementing agents that learn optimal sequences of actions through trial-and-error interaction with an environment to maximize long-term rewards without relying on labeled data.

General domain of usage  
Game playing

**Maskinlæring** består av tre hovedlæringsparadigmer, hver egnet for ulike typer problemer. **Forsterkende læring** er ett av dem, sammen med **overvåket læring** og **uovervåket læring**.

## Nøkkelfunksjoner ved RL

- **Ingen merkede data**: RL krever ikke forhåndsdefinerte input-output-par, men lærer i stedet fra erfaring;
- **Læring gjennom prøving og feiling**: agenten utforsker ulike handlinger og forbedrer strategien basert på tilbakemeldinger;
- **Sekvensielle beslutninger**: RL er utviklet for oppgaver der nåværende beslutninger påvirker fremtidige utfall;
- **Maksimering av belønning**: læringsmålet er å optimalisere langsiktige belønninger fremfor kortsiktig korrekthet.

## Hvordan tre ML-paradigmer sammenlignes

Ingen fast datasett (interagerer med miljøet)

Lærer gjennom prøving og feiling ved å samhandle med miljøet

Kobler innganger til utganger ved bruk av merkede data

Belønninger og straff styrer læring gjennom interaksjoner

Direkte tilbakemelding basert på kjente riktige svar

Ingen eksplisitt tilbakemelding, oppdager struktur på egen hånd

## Hvorfor reinforcement learning er annerledes
Reinforcement learning deler noen likheter med andre paradigmer, men skiller seg ut på grunn av sin unike tilnærming til læringsprosessen.
### Supervised learning
I **supervised learning** gir et datasett eksplisitte instruksjoner om hva som er riktig utgang. I **reinforcement learning** finnes det **ingen eksplisitt veiledning**—agenten må finne ut de beste handlingene gjennom erfaring.

### Unsupervised learning
**Unsupervised learning** finner **skjulte mønstre** i data uten spesifikke mål. **Reinforcement learning** lærer **gjennom interaksjon** med et miljø for å oppnå et **eksplisitt mål** (f.eks. å vinne et spill).

Reinforcement Learning (RL) er en kraftig gren av maskinlæring som fokuserer på å trene intelligente agenter gjennom interaksjon med sitt miljø. I dette kurset lærer du hvordan agenter gradvis oppdager effektive atferder gjennom prøving og feiling. Du starter med grunnleggende konsepter som Markov beslutningsprosesser og multi-armede banditter, og fortsetter med dynamisk programmering, Monte Carlo-metoder og temporal difference-læring.

Lær hvordan man trener agenter til å ta optimale beslutninger gjennom prøving og feiling. Utforsk det grunnleggende innenfor teori om forsterkende læring. Få praktisk erfaring med å sette opp og kjøre et Gymnasium-miljø.

Forstå utforskning-utnyttelse-avveiningen gjennom multi-armet bandittproblem. Implementering av handlingsverdiestimering, ε-grådig, øvre konfidensgrense og gradient-bandittmetoder. Evaluering av algoritmers ytelse på simulerte belønningsmaksimeringsoppgaver.

Behersk dynamisk programmering for modellbasert RL. Oppdag hvordan Bellman-likninger kan brukes til å evaluere og forbedre policyer. Implementering av policy- og verdiiterasjonsalgoritmer. Utforsk generalisert policyiterasjon som det teoretiske grunnlaget for modellfrie metoder.

Behersk Monte Carlo-metoder for modellfri RL. Estimer verdifunksjoner og utled optimale policyer fra fullstendige episoder. Implementer on-policy og off-policy Monte Carlo-kontrollalgoritmer. Utforsk strategier for utforskning for å optimalisere modellfri læring.

Behersk temporal difference-læring for modellfri RL. Estimeringsmetoder for verdifunksjoner fra delvise episoder ved bruk av TD(0)-oppdateringer. Implementering av on-policy SARSA og off-policy Q-Learning-algoritmer. Utforsk hvordan Monte Carlo-metoder og TD-læring kombineres i n-trinns TD og TD(λ).

RL Kontra Andre Læringsparadigmer

Nøkkelfunksjoner ved RL

Hvordan tre ML-paradigmer sammenlignes

Hvorfor reinforcement learning er annerledes