Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте TD(0): Оцінювання Функції Цінності | Навчання з Часовою Різницею
Вступ до навчання з підкріпленням

bookTD(0): Оцінювання Функції Цінності

Найпростішою версією TD-навчання є TD(0). Воно оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.

Правило оновлення

Нехай задано стан StS_t, винагорода Rt+1R_{t+1} та наступний стан St+1S_{t+1}, правило оновлення має вигляд:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

де

  • α\alpha — коефіцієнт навчання, або розмір кроку;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) — TD-помилка.

Інтуїція

Функцію значення стану vπv_\pi можна визначити та розкласти наступним чином:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Це дає першу частину δt\delta_t — отриману винагороду Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Друга частина δt\delta_t — це очікувана винагорода V(St)V(S_t). TD-помилка δt\delta_t — це спостережувана різниця між тим, що фактично сталося, і тим, що ми раніше очікували. Таким чином, правило оновлення коригує попередню оцінку на кожному кроці, наближаючи її до істини.

TD(0) проти оцінки Монте-Карло

І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану vπ(s)v_\pi(s) для політики π\pi. За стандартних умов збіжності обидва методи сходяться до істинного vπ(s)v_\pi(s), коли кількість відвідувань кожного стану прямує до нескінченності. Однак на практиці ми маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються тим, як вони використовують ці дані та наскільки швидко навчаються.

Компроміс між зміщенням і дисперсією

З точки зору компромісу між зміщенням і дисперсією:

Оцінювання методом Монте-Карло очікує завершення епізоду, а потім використовує повну суму винагород для оновлення значень. Це забезпечує незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть суттєво коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.

TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення ґрунтуються на недосконалих оцінках, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду по простору станів, хоча початкове зміщення може уповільнювати збіжність.

Навчання на даних проти навчання моделі

Ще один спосіб розглянути ці два методи — проаналізувати, чому саме вони навчаються:

Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не формує явного уявлення про те, як стани переходять один в одного, може мати труднощі з узагальненням на нові або трохи відмінні ситуації.

TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.

Псевдокод

question mark

Як можна охарактеризувати TD(0) з точки зору зміщеності та дисперсії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 2

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the main differences between TD(0) and Monte Carlo methods in more detail?

How does the bias-variance tradeoff affect the choice between TD(0) and Monte Carlo?

Can you walk me through the TD(0) update rule with a concrete example?

Awesome!

Completion rate improved to 2.7

bookTD(0): Оцінювання Функції Цінності

Свайпніть щоб показати меню

Найпростішою версією TD-навчання є TD(0). Воно оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.

Правило оновлення

Нехай задано стан StS_t, винагорода Rt+1R_{t+1} та наступний стан St+1S_{t+1}, правило оновлення має вигляд:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

де

  • α\alpha — коефіцієнт навчання, або розмір кроку;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) — TD-помилка.

Інтуїція

Функцію значення стану vπv_\pi можна визначити та розкласти наступним чином:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Це дає першу частину δt\delta_t — отриману винагороду Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Друга частина δt\delta_t — це очікувана винагорода V(St)V(S_t). TD-помилка δt\delta_t — це спостережувана різниця між тим, що фактично сталося, і тим, що ми раніше очікували. Таким чином, правило оновлення коригує попередню оцінку на кожному кроці, наближаючи її до істини.

TD(0) проти оцінки Монте-Карло

І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану vπ(s)v_\pi(s) для політики π\pi. За стандартних умов збіжності обидва методи сходяться до істинного vπ(s)v_\pi(s), коли кількість відвідувань кожного стану прямує до нескінченності. Однак на практиці ми маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються тим, як вони використовують ці дані та наскільки швидко навчаються.

Компроміс між зміщенням і дисперсією

З точки зору компромісу між зміщенням і дисперсією:

Оцінювання методом Монте-Карло очікує завершення епізоду, а потім використовує повну суму винагород для оновлення значень. Це забезпечує незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть суттєво коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.

TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення ґрунтуються на недосконалих оцінках, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду по простору станів, хоча початкове зміщення може уповільнювати збіжність.

Навчання на даних проти навчання моделі

Ще один спосіб розглянути ці два методи — проаналізувати, чому саме вони навчаються:

Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не формує явного уявлення про те, як стани переходять один в одного, може мати труднощі з узагальненням на нові або трохи відмінні ситуації.

TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.

Псевдокод

question mark

Як можна охарактеризувати TD(0) з точки зору зміщеності та дисперсії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 2
some-alt