Вивчайте TD(0): Оцінювання Функції Цінності | Навчання з Часовою Різницею

Найпростішою версією TD-навчання є TD(0). Воно оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.

Правило оновлення

Нехай задано стан $S_t$ , винагорода $R_{t+1}$ та наступний стан $S_{t+1}$ , правило оновлення має вигляд:

V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

де

$\alpha$ — коефіцієнт навчання, або розмір кроку;
$\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t)$ — TD-помилка.

Інтуїція

Функцію значення стану $v_\pi$ можна визначити та розкласти наступним чином:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Це дає першу частину $\delta_t$ — отриману винагороду $R_{t+1} + \gamma V(S_{t+1})$ . Друга частина $\delta_t$ — це очікувана винагорода $V(S_t)$ . TD-помилка $\delta_t$ — це спостережувана різниця між тим, що фактично сталося, і тим, що ми раніше очікували. Таким чином, правило оновлення коригує попередню оцінку на кожному кроці, наближаючи її до істини.

TD(0) проти оцінки Монте-Карло

І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану $v_\pi(s)$ для політики $\pi$ . За стандартних умов збіжності обидва методи сходяться до істинного $v_\pi(s)$ , коли кількість відвідувань кожного стану прямує до нескінченності. Однак на практиці ми маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються тим, як вони використовують ці дані та наскільки швидко навчаються.

Компроміс між зміщенням і дисперсією

З точки зору компромісу між зміщенням і дисперсією:

Оцінювання методом Монте-Карло очікує завершення епізоду, а потім використовує повну суму винагород для оновлення значень. Це забезпечує незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть суттєво коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.

TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення ґрунтуються на недосконалих оцінках, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду по простору станів, хоча початкове зміщення може уповільнювати збіжність.

Навчання на даних проти навчання моделі

Ще один спосіб розглянути ці два методи — проаналізувати, чому саме вони навчаються:

Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не формує явного уявлення про те, як стани переходять один в одного, може мати труднощі з узагальненням на нові або трохи відмінні ситуації.

TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.

Псевдокод

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 5. Розділ 2

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the main differences between TD(0) and Monte Carlo methods in more detail?

How does the bias-variance tradeoff affect the choice between TD(0) and Monte Carlo?

Can you walk me through the TD(0) update rule with a concrete example?

Свайпніть щоб показати меню