Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація Значень | Динамічне Програмування
Вступ до навчання з підкріпленням

bookІтерація Значень

Хоча ітерація політики є ефективним підходом для розв'язання Маркованих процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінки політики. Коли оцінка політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінку політики та покращення політики в один крок. Цей метод безпосередньо оновлює функцію значення до її збіжності до оптимальної функції значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінки політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінка політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація значень?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookІтерація Значень

Свайпніть щоб показати меню

Хоча ітерація політики є ефективним підходом для розв'язання Маркованих процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінки політики. Коли оцінка політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінку політики та покращення політики в один крок. Цей метод безпосередньо оновлює функцію значення до її збіжності до оптимальної функції значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінки політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінка політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація значень?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8
some-alt