Узагальнення TD-Навчання
На даний момент ми розглядали два крайні випадки навчання на основі досвіду:
- TD(0): використовує однокрокову віддачу;
- Монте-Карло: чекає завершення епізоду для обчислення віддачі.
Але що, якщо нам потрібно щось посередині? Метод, який використовує більше інформації про майбутнє, ніж TD(0), але не вимагає чекати завершення всього епізоду, як Монте-Карло?
Саме тут з'являються n-крокове TD-навчання та TD(λ) — методи, які об'єднують і узагальнюють ідеї, розглянуті раніше.
n-крокове TD-навчання
Ідея n-крокового TD-навчання проста: замість використання лише наступного кроку або всього епізоду, ми використовуємо наступні n кроків, а потім застосовуємо бутстрепінг:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Це дозволяє здійснювати компроміс:
- Коли n=1: це просто TD(0);
- Коли n=∞: це стає Монте-Карло.
Ці віддачі можна використовувати для заміни цільового значення у правилі оновлення TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) — це вдала ідея, що базується на n-кроковому TD-навчанні: замість вибору фіксованого n, об'єднуються усі n-крокові повернення разом:
Lt=(1−λ)n=0∑∞λn−1Gt(n)де λ∈[0,1] визначає вагу:
- Якщо λ=0: лише однокрокове повернення → TD(0);
- Якщо λ=1: повне повернення → Monte Carlo;
- Проміжні значення поєднують кілька крокових повернень.
Таким чином, λ виступає як регулятор компромісу між зміщенням і дисперсією:
- Низьке λ: більше зміщення, менше дисперсії;
- Високе λ: менше зміщення, більше дисперсії.
Lt може бути використано як цільове значення для оновлення у правилі TD(0):
V(St)←V(St)+α(Lt−V(St))Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Узагальнення TD-Навчання
Свайпніть щоб показати меню
На даний момент ми розглядали два крайні випадки навчання на основі досвіду:
- TD(0): використовує однокрокову віддачу;
- Монте-Карло: чекає завершення епізоду для обчислення віддачі.
Але що, якщо нам потрібно щось посередині? Метод, який використовує більше інформації про майбутнє, ніж TD(0), але не вимагає чекати завершення всього епізоду, як Монте-Карло?
Саме тут з'являються n-крокове TD-навчання та TD(λ) — методи, які об'єднують і узагальнюють ідеї, розглянуті раніше.
n-крокове TD-навчання
Ідея n-крокового TD-навчання проста: замість використання лише наступного кроку або всього епізоду, ми використовуємо наступні n кроків, а потім застосовуємо бутстрепінг:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Це дозволяє здійснювати компроміс:
- Коли n=1: це просто TD(0);
- Коли n=∞: це стає Монте-Карло.
Ці віддачі можна використовувати для заміни цільового значення у правилі оновлення TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) — це вдала ідея, що базується на n-кроковому TD-навчанні: замість вибору фіксованого n, об'єднуються усі n-крокові повернення разом:
Lt=(1−λ)n=0∑∞λn−1Gt(n)де λ∈[0,1] визначає вагу:
- Якщо λ=0: лише однокрокове повернення → TD(0);
- Якщо λ=1: повне повернення → Monte Carlo;
- Проміжні значення поєднують кілька крокових повернень.
Таким чином, λ виступає як регулятор компромісу між зміщенням і дисперсією:
- Низьке λ: більше зміщення, менше дисперсії;
- Високе λ: менше зміщення, більше дисперсії.
Lt може бути використано як цільове значення для оновлення у правилі TD(0):
V(St)←V(St)+α(Lt−V(St))Дякуємо за ваш відгук!