Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Modello, Politica e Valori | Teoria Fondamentale dell'RL
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Modello, Politica e Valori

Modello

Note
Definizione

Un modello è una rappresentazione dell'ambiente che definisce le probabilità di transizione tra stati e le ricompense attese per le azioni intraprese.

Gli algoritmi di apprendimento per rinforzo possono essere suddivisi in due categorie:

  • Basati su modello: in questo approccio, l'agente apprende o ha accesso a un modello dell'ambiente, che gli consente di simulare stati e ricompense futuri prima di intraprendere azioni. Questo permette all'agente di pianificare e prendere decisioni più informate;
  • Senza modello: in questo approccio, l'agente non dispone di un modello diretto dell'ambiente. Impara esclusivamente tramite l'interazione con l'ambiente, affidandosi al metodo di tentativi ed errori per scoprire le azioni migliori.

Nella pratica, gli ambienti con modelli espliciti sono rari, rendendo difficile per gli agenti affidarsi a strategie basate su modello. Di conseguenza, gli approcci senza modello sono diventati più diffusi e ampiamente studiati nella ricerca e nelle applicazioni di apprendimento per rinforzo.

Politica

Note
Definizione

Politica π\pi è la strategia che un agente segue per decidere le proprie azioni in base allo stato attuale dell'ambiente.

Esistono due tipi di politiche:

  • Politica deterministica: l'agente seleziona sempre la stessa azione per uno stato dato;
  • Politica stocastica: l'agente seleziona le azioni in base a distribuzioni di probabilità.

Durante il processo di apprendimento, l'obiettivo dell'agente è trovare una politica ottimale. Una politica ottimale è quella che massimizza il ritorno atteso, guidando l'agente a prendere le migliori decisioni possibili in ogni stato dato.

Funzioni di valore

Le funzioni di valore sono fondamentali per comprendere come un agente valuta il potenziale di uno specifico stato o coppia stato-azione. Vengono utilizzate per stimare le future ricompense attese, aiutando l'agente a prendere decisioni informate.

Funzione di Valore di Stato

Note
Definizione

Funzione di valore di stato VV (o vv) è una funzione che fornisce il ritorno atteso dell'essere in uno stato particolare e seguire una politica specifica. Aiuta a valutare la desiderabilità degli stati.

Il valore di uno stato può essere espresso matematicamente come segue:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Funzione di valore stato-azione

Note
Definizione

La funzione di valore stato-azione QQ (o qq) è una funzione che fornisce il ritorno atteso dell'esecuzione di una determinata azione in uno stato specifico e del successivo seguito di una politica specifica. Aiuta a valutare la desiderabilità delle azioni negli stati.

La funzione di valore stato-azione è spesso chiamata anche funzione di valore azione.

Il valore di un'azione può essere espresso matematicamente come segue:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relazione tra Modello, Politica e Funzioni di Valore

I concetti di modello, politica e funzioni di valore sono strettamente collegati, formando un quadro completo per la categorizzazione degli algoritmi di RL. Questo quadro è definito da due assi principali:

  • Obiettivo di apprendimento: questo asse rappresenta lo spettro degli algoritmi di RL in base alla loro dipendenza dalle funzioni di valore, dalle funzioni di politica o da una combinazione di entrambe;
  • Applicazione del modello: questo asse distingue gli algoritmi in base al fatto che utilizzino un modello dell'ambiente o apprendano esclusivamente tramite interazione.

Combinando queste dimensioni, è possibile classificare gli algoritmi di RL in categorie distinte, ciascuna con le proprie caratteristiche e casi d'uso ideali. Comprendere queste relazioni aiuta a selezionare l'algoritmo più appropriato per compiti specifici, garantendo processi di apprendimento e decisione efficienti.

question-icon

Completa gli spazi vuoti

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Modello, Politica e Valori

Modello

Note
Definizione

Un modello è una rappresentazione dell'ambiente che definisce le probabilità di transizione tra stati e le ricompense attese per le azioni intraprese.

Gli algoritmi di apprendimento per rinforzo possono essere suddivisi in due categorie:

  • Basati su modello: in questo approccio, l'agente apprende o ha accesso a un modello dell'ambiente, che gli consente di simulare stati e ricompense futuri prima di intraprendere azioni. Questo permette all'agente di pianificare e prendere decisioni più informate;
  • Senza modello: in questo approccio, l'agente non dispone di un modello diretto dell'ambiente. Impara esclusivamente tramite l'interazione con l'ambiente, affidandosi al metodo di tentativi ed errori per scoprire le azioni migliori.

Nella pratica, gli ambienti con modelli espliciti sono rari, rendendo difficile per gli agenti affidarsi a strategie basate su modello. Di conseguenza, gli approcci senza modello sono diventati più diffusi e ampiamente studiati nella ricerca e nelle applicazioni di apprendimento per rinforzo.

Politica

Note
Definizione

Politica π\pi è la strategia che un agente segue per decidere le proprie azioni in base allo stato attuale dell'ambiente.

Esistono due tipi di politiche:

  • Politica deterministica: l'agente seleziona sempre la stessa azione per uno stato dato;
  • Politica stocastica: l'agente seleziona le azioni in base a distribuzioni di probabilità.

Durante il processo di apprendimento, l'obiettivo dell'agente è trovare una politica ottimale. Una politica ottimale è quella che massimizza il ritorno atteso, guidando l'agente a prendere le migliori decisioni possibili in ogni stato dato.

Funzioni di valore

Le funzioni di valore sono fondamentali per comprendere come un agente valuta il potenziale di uno specifico stato o coppia stato-azione. Vengono utilizzate per stimare le future ricompense attese, aiutando l'agente a prendere decisioni informate.

Funzione di Valore di Stato

Note
Definizione

Funzione di valore di stato VV (o vv) è una funzione che fornisce il ritorno atteso dell'essere in uno stato particolare e seguire una politica specifica. Aiuta a valutare la desiderabilità degli stati.

Il valore di uno stato può essere espresso matematicamente come segue:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Funzione di valore stato-azione

Note
Definizione

La funzione di valore stato-azione QQ (o qq) è una funzione che fornisce il ritorno atteso dell'esecuzione di una determinata azione in uno stato specifico e del successivo seguito di una politica specifica. Aiuta a valutare la desiderabilità delle azioni negli stati.

La funzione di valore stato-azione è spesso chiamata anche funzione di valore azione.

Il valore di un'azione può essere espresso matematicamente come segue:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relazione tra Modello, Politica e Funzioni di Valore

I concetti di modello, politica e funzioni di valore sono strettamente collegati, formando un quadro completo per la categorizzazione degli algoritmi di RL. Questo quadro è definito da due assi principali:

  • Obiettivo di apprendimento: questo asse rappresenta lo spettro degli algoritmi di RL in base alla loro dipendenza dalle funzioni di valore, dalle funzioni di politica o da una combinazione di entrambe;
  • Applicazione del modello: questo asse distingue gli algoritmi in base al fatto che utilizzino un modello dell'ambiente o apprendano esclusivamente tramite interazione.

Combinando queste dimensioni, è possibile classificare gli algoritmi di RL in categorie distinte, ciascuna con le proprie caratteristiche e casi d'uso ideali. Comprendere queste relazioni aiuta a selezionare l'algoritmo più appropriato per compiti specifici, garantendo processi di apprendimento e decisione efficienti.

question-icon

Completa gli spazi vuoti

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5
some-alt