Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте TD(0): Оцінювання Функції Цінності | Навчання з Часовою Різницею
Вступ до навчання з підкріпленням

bookTD(0): Оцінювання Функції Цінності

Найпростішою версією TD-навчання є TD(0). Вона оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.

Правило оновлення

Для заданого стану StS_t, винагороди Rt+1R_{t+1} та наступного стану St+1S_{t+1} правило оновлення виглядає так:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

де

  • α\alpha — коефіцієнт навчання або розмір кроку;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) — TD-помилка.

Інтуїція

Функцію цінності стану vπv_\pi можна визначити та розкласти наступним чином:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Це дає першу частину δt\delta_t — отриману винагороду Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Друга частина δt\delta_t — це очікувана винагорода V(St)V(S_t). TD-помилка δt\delta_t — це спостережуване відхилення між тим, що фактично сталося, і тим, що ми раніше очікували. Таким чином, правило оновлення коригує попереднє уявлення на кожному кроці, наближаючи його до істини.

TD(0) проти оцінки Монте-Карло

І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану vπ(s)v_\pi(s) для політики π\pi. За стандартних умов збіжності обидва методи сходяться до істинного vπ(s)v_\pi(s), коли кількість відвідувань кожного стану прямує до нескінченності. Однак на практиці ми завжди маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються тим, як вони використовують ці дані та з якою швидкістю навчаються.

Компроміс між зміщенням і дисперсією

З точки зору компромісу між зміщенням і дисперсією:

Оцінювання методом Монте-Карло очікує завершення епізоду і лише тоді використовує повну суму винагород для оновлення значень. Це дає незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть сильно коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.

TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення ґрунтуються на недосконалих оцінках, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду через простір станів, хоча початкове зміщення може уповільнювати збіжність.

Навчання на даних проти навчання моделі

Ще один спосіб порівняти ці два методи — проаналізувати, чого саме вони навчаються:

Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не формує явного уявлення про те, як стани переходять один в одного, може мати труднощі з узагальненням на нові або трохи відмінні ситуації.

TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.

Псевдокод

question mark

Як можна охарактеризувати TD(0) з точки зору зміщеності та дисперсії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 2

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookTD(0): Оцінювання Функції Цінності

Свайпніть щоб показати меню

Найпростішою версією TD-навчання є TD(0). Вона оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.

Правило оновлення

Для заданого стану StS_t, винагороди Rt+1R_{t+1} та наступного стану St+1S_{t+1} правило оновлення виглядає так:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

де

  • α\alpha — коефіцієнт навчання або розмір кроку;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) — TD-помилка.

Інтуїція

Функцію цінності стану vπv_\pi можна визначити та розкласти наступним чином:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Це дає першу частину δt\delta_t — отриману винагороду Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Друга частина δt\delta_t — це очікувана винагорода V(St)V(S_t). TD-помилка δt\delta_t — це спостережуване відхилення між тим, що фактично сталося, і тим, що ми раніше очікували. Таким чином, правило оновлення коригує попереднє уявлення на кожному кроці, наближаючи його до істини.

TD(0) проти оцінки Монте-Карло

І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану vπ(s)v_\pi(s) для політики π\pi. За стандартних умов збіжності обидва методи сходяться до істинного vπ(s)v_\pi(s), коли кількість відвідувань кожного стану прямує до нескінченності. Однак на практиці ми завжди маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються тим, як вони використовують ці дані та з якою швидкістю навчаються.

Компроміс між зміщенням і дисперсією

З точки зору компромісу між зміщенням і дисперсією:

Оцінювання методом Монте-Карло очікує завершення епізоду і лише тоді використовує повну суму винагород для оновлення значень. Це дає незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть сильно коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.

TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення ґрунтуються на недосконалих оцінках, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду через простір станів, хоча початкове зміщення може уповільнювати збіжність.

Навчання на даних проти навчання моделі

Ще один спосіб порівняти ці два методи — проаналізувати, чого саме вони навчаються:

Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не формує явного уявлення про те, як стани переходять один в одного, може мати труднощі з узагальненням на нові або трохи відмінні ситуації.

TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.

Псевдокод

question mark

Як можна охарактеризувати TD(0) з точки зору зміщеності та дисперсії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 2
some-alt