Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте TD(0): Оцінювання Функції Цінності | Навчання з часовою різницею
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
TD(0): Оцінювання Функції Цінності

Найпростішою версією TD-навчання є TD(0). Воно оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.

Правило оновлення

Нехай задано стан StS_t, винагороду Rt+1R_{t+1} та наступний стан St+1S_{t+1}, правило оновлення виглядає так:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

де

  • α\alpha — коефіцієнт навчання, або розмір кроку;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) — TD-помилка.

Інтуїція

Функцію цінності стану vπv_\pi можна визначити та розкласти наступним чином:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Це дає першу частину δt\delta_t — отриману винагороду Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Друга частина δt\delta_t — це очікувана винагорода V(St)V(S_t). TD-помилка δt\delta_t — це спостережувана різниця між тим, що фактично сталося, і тим, що ми раніше вважали, що станеться. Таким чином, правило оновлення коригує попередню оцінку на кожному кроці, наближаючи її до істини.

TD(0) проти оцінки Монте-Карло

І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану vπ(s)v_\pi(s) для політики π\pi. За стандартних умов збіжності обидва методи сходяться до істинного vπ(s)v_\pi(s), коли кількість відвідувань кожного стану прямує до нескінченності. Проте на практиці ми маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються у способі використання цих даних та швидкості навчання.

Компроміс між зміщенням і дисперсією

З точки зору компромісу між зміщенням і дисперсією:

Оцінювання методом Монте-Карло очікує завершення епізоду, а потім використовує повну суму винагород для оновлення значень. Це дає незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть сильно коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.

TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення спираються на недосконалі оцінки, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду через простір станів, хоча початкове зміщення може уповільнювати збіжність.

Навчання на даних проти навчання моделі

Ще один спосіб розглянути ці два методи — проаналізувати, чому саме вони навчаються:

Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не будує явного уявлення про те, як стани переходять один в одного, йому може бути складно узагальнювати на нові або трохи відмінні ситуації.

TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.

Псевдокод

question mark

Як можна охарактеризувати TD(0) з точки зору зміщеності та дисперсії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 2

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
TD(0): Оцінювання Функції Цінності

Найпростішою версією TD-навчання є TD(0). Воно оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.

Правило оновлення

Нехай задано стан StS_t, винагороду Rt+1R_{t+1} та наступний стан St+1S_{t+1}, правило оновлення виглядає так:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

де

  • α\alpha — коефіцієнт навчання, або розмір кроку;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) — TD-помилка.

Інтуїція

Функцію цінності стану vπv_\pi можна визначити та розкласти наступним чином:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Це дає першу частину δt\delta_t — отриману винагороду Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Друга частина δt\delta_t — це очікувана винагорода V(St)V(S_t). TD-помилка δt\delta_t — це спостережувана різниця між тим, що фактично сталося, і тим, що ми раніше вважали, що станеться. Таким чином, правило оновлення коригує попередню оцінку на кожному кроці, наближаючи її до істини.

TD(0) проти оцінки Монте-Карло

І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану vπ(s)v_\pi(s) для політики π\pi. За стандартних умов збіжності обидва методи сходяться до істинного vπ(s)v_\pi(s), коли кількість відвідувань кожного стану прямує до нескінченності. Проте на практиці ми маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються у способі використання цих даних та швидкості навчання.

Компроміс між зміщенням і дисперсією

З точки зору компромісу між зміщенням і дисперсією:

Оцінювання методом Монте-Карло очікує завершення епізоду, а потім використовує повну суму винагород для оновлення значень. Це дає незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть сильно коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.

TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення спираються на недосконалі оцінки, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду через простір станів, хоча початкове зміщення може уповільнювати збіжність.

Навчання на даних проти навчання моделі

Ще один спосіб розглянути ці два методи — проаналізувати, чому саме вони навчаються:

Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не будує явного уявлення про те, як стани переходять один в одного, йому може бути складно узагальнювати на нові або трохи відмінні ситуації.

TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.

Псевдокод

question mark

Як можна охарактеризувати TD(0) з точки зору зміщеності та дисперсії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 2
some-alt