Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Modello, Politica e Valori
Modello
Un modello è una rappresentazione dell'ambiente che definisce le probabilità di transizione tra stati e le ricompense attese per le azioni intraprese.
Gli algoritmi di apprendimento per rinforzo possono essere suddivisi in due categorie:
- Basati su modello: in questo approccio, l'agente apprende o ha accesso a un modello dell'ambiente, che gli consente di simulare stati e ricompense futuri prima di intraprendere azioni. Questo permette all'agente di pianificare e prendere decisioni più informate;
- Senza modello: in questo approccio, l'agente non dispone di un modello diretto dell'ambiente. Impara esclusivamente tramite l'interazione con l'ambiente, affidandosi al metodo di tentativi ed errori per scoprire le azioni migliori.
Nella pratica, gli ambienti con modelli espliciti sono rari, rendendo difficile per gli agenti affidarsi a strategie basate su modello. Di conseguenza, gli approcci senza modello sono diventati più diffusi e ampiamente studiati nella ricerca e nelle applicazioni di apprendimento per rinforzo.
Politica
Politica è la strategia che un agente segue per decidere le proprie azioni in base allo stato attuale dell'ambiente.
Esistono due tipi di politiche:
- Politica deterministica: l'agente seleziona sempre la stessa azione per uno stato dato;
- Politica stocastica: l'agente seleziona le azioni in base a distribuzioni di probabilità.
Durante il processo di apprendimento, l'obiettivo dell'agente è trovare una politica ottimale. Una politica ottimale è quella che massimizza il ritorno atteso, guidando l'agente a prendere le migliori decisioni possibili in ogni stato dato.
Funzioni di valore
Le funzioni di valore sono fondamentali per comprendere come un agente valuta il potenziale di uno specifico stato o coppia stato-azione. Vengono utilizzate per stimare le future ricompense attese, aiutando l'agente a prendere decisioni informate.
Funzione di Valore di Stato
Funzione di valore di stato (o ) è una funzione che fornisce il ritorno atteso dell'essere in uno stato particolare e seguire una politica specifica. Aiuta a valutare la desiderabilità degli stati.
Il valore di uno stato può essere espresso matematicamente come segue:
Funzione di valore stato-azione
La funzione di valore stato-azione (o ) è una funzione che fornisce il ritorno atteso dell'esecuzione di una determinata azione in uno stato specifico e del successivo seguito di una politica specifica. Aiuta a valutare la desiderabilità delle azioni negli stati.
La funzione di valore stato-azione è spesso chiamata anche funzione di valore azione.
Il valore di un'azione può essere espresso matematicamente come segue:
Relazione tra Modello, Politica e Funzioni di Valore
I concetti di modello, politica e funzioni di valore sono strettamente collegati, formando un quadro completo per la categorizzazione degli algoritmi di RL. Questo quadro è definito da due assi principali:
- Obiettivo di apprendimento: questo asse rappresenta lo spettro degli algoritmi di RL in base alla loro dipendenza dalle funzioni di valore, dalle funzioni di politica o da una combinazione di entrambe;
- Applicazione del modello: questo asse distingue gli algoritmi in base al fatto che utilizzino un modello dell'ambiente o apprendano esclusivamente tramite interazione.
Combinando queste dimensioni, è possibile classificare gli algoritmi di RL in categorie distinte, ciascuna con le proprie caratteristiche e casi d'uso ideali. Comprendere queste relazioni aiuta a selezionare l'algoritmo più appropriato per compiti specifici, garantendo processi di apprendimento e decisione efficienti.
Grazie per i tuoi commenti!