Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація Значень | Динамічне Програмування
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Ітерація Значень

Хоча ітерація політики є ефективним підходом для розв'язання Маркованих процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінки політики. Коли оцінка політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінку політики та покращення політики в один крок. Цей метод безпосередньо оновлює функцію значення до її збіжності до оптимальної функції значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінки політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінка політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація значень?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Ітерація Значень

Хоча ітерація політики є ефективним підходом для розв'язання Маркованих процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінки політики. Коли оцінка політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінку політики та покращення політики в один крок. Цей метод безпосередньо оновлює функцію значення до її збіжності до оптимальної функції значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінки політики перед покращенням політики. Це призводить до наступної формули оновлення:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінка політики та покращення політики об'єднуються в один крок.

Псевдокод

question mark

Згідно з псевдокодом, коли зупиняється ітерація значень?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 8
some-alt