Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація Значень | Динамічне програмування
Вступ до навчання з підкріпленням з використанням Python

bookІтерація Значень

Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація за значенням?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

bookІтерація Значень

Свайпніть щоб показати меню

Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація за значенням?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8
some-alt