Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація Значень | Динамічне програмування
Вступ до навчання з підкріпленням

bookІтерація Значень

Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація за значенням?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookІтерація Значень

Свайпніть щоб показати меню

Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація за значенням?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8
some-alt