Generalisierte Politikiteration
In den vorherigen Kapiteln wurden Politikbewertung und Politikverbesserung behandelt. Diese Prozesse ergänzen sich gegenseitig und werden auf natürliche Weise in einem Rahmenwerk zusammengeführt, das als generalisierte Politikiteration bekannt ist.
Generalisierte Politikiteration (GPI) ist ein Rahmenwerk, in dem Politikbewertung und Politikverbesserung iterativ miteinander interagieren, mit dem gemeinsamen Ziel, eine optimale Politik zu bestimmen.
Die meisten Methoden des Reinforcement Learnings lassen sich im Rahmen der GPI beschreiben. Die wesentlichen Unterschiede zwischen diesen Methoden ergeben sich aus den konkreten Umsetzungen der Politikbewertung und Politikverbesserung sowie aus der Art ihrer Interaktion.
Interaktion zwischen zwei Prozessen
Politikbewertung und Politikverbesserung können je nach Perspektive sowohl als kooperative als auch als kompetitive Prozesse betrachtet werden:
- Kooperativ: Beide Prozesse arbeiten auf ein gemeinsames Ziel hin—die optimale Politik und Wertfunktion zu finden. Die Politikbewertung schätzt die Wertfunktion für eine gegebene Politik, während die Politikverbesserung die Politik auf Basis dieser Schätzungen verfeinert;
- Kompetitiv: Jeder Prozess verfolgt widersprüchliche Ziele. Die Politikbewertung zielt darauf ab, die Wertfunktion für die aktuelle Politik genau zu schätzen, was häufig dazu führt, dass die Politik nicht mehr gierig ist. Im Gegensatz dazu passt die Politikverbesserung die Politik so an, dass sie bezüglich der aktuellen Wertfunktionsschätzungen gierig ist, wodurch diese Schätzungen typischerweise inkorrekt werden. Dieses ständige Wechselspiel setzt sich fort, bis sowohl die Politik als auch die Wertfunktion ihre optimalen Formen erreichen.
Zusammenfassung
Generalisierte Politikiteration ist ein nützliches Rahmenkonzept, um zu verstehen, wie verschiedene Methoden des Reinforcement Learnings die MDPs lösen. In den kommenden Kapiteln werden Sie erkunden, wie diese Ideen angewendet werden können, um zwei wesentliche DP-Methoden zu entwickeln: Politikiteration und Wertiteration.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain what generalized policy iteration (GPI) is in simple terms?
What are the main differences between policy iteration and value iteration?
How do policy evaluation and policy improvement interact in practice?
Awesome!
Completion rate improved to 2.7
Generalisierte Politikiteration
Swipe um das Menü anzuzeigen
In den vorherigen Kapiteln wurden Politikbewertung und Politikverbesserung behandelt. Diese Prozesse ergänzen sich gegenseitig und werden auf natürliche Weise in einem Rahmenwerk zusammengeführt, das als generalisierte Politikiteration bekannt ist.
Generalisierte Politikiteration (GPI) ist ein Rahmenwerk, in dem Politikbewertung und Politikverbesserung iterativ miteinander interagieren, mit dem gemeinsamen Ziel, eine optimale Politik zu bestimmen.
Die meisten Methoden des Reinforcement Learnings lassen sich im Rahmen der GPI beschreiben. Die wesentlichen Unterschiede zwischen diesen Methoden ergeben sich aus den konkreten Umsetzungen der Politikbewertung und Politikverbesserung sowie aus der Art ihrer Interaktion.
Interaktion zwischen zwei Prozessen
Politikbewertung und Politikverbesserung können je nach Perspektive sowohl als kooperative als auch als kompetitive Prozesse betrachtet werden:
- Kooperativ: Beide Prozesse arbeiten auf ein gemeinsames Ziel hin—die optimale Politik und Wertfunktion zu finden. Die Politikbewertung schätzt die Wertfunktion für eine gegebene Politik, während die Politikverbesserung die Politik auf Basis dieser Schätzungen verfeinert;
- Kompetitiv: Jeder Prozess verfolgt widersprüchliche Ziele. Die Politikbewertung zielt darauf ab, die Wertfunktion für die aktuelle Politik genau zu schätzen, was häufig dazu führt, dass die Politik nicht mehr gierig ist. Im Gegensatz dazu passt die Politikverbesserung die Politik so an, dass sie bezüglich der aktuellen Wertfunktionsschätzungen gierig ist, wodurch diese Schätzungen typischerweise inkorrekt werden. Dieses ständige Wechselspiel setzt sich fort, bis sowohl die Politik als auch die Wertfunktion ihre optimalen Formen erreichen.
Zusammenfassung
Generalisierte Politikiteration ist ein nützliches Rahmenkonzept, um zu verstehen, wie verschiedene Methoden des Reinforcement Learnings die MDPs lösen. In den kommenden Kapiteln werden Sie erkunden, wie diese Ideen angewendet werden können, um zwei wesentliche DP-Methoden zu entwickeln: Politikiteration und Wertiteration.
Danke für Ihr Feedback!