Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
TD(0): Оцінювання Функції Цінності
Найпростішою версією TD-навчання є TD(0). Воно оновлює значення стану на основі негайної винагороди та оціненого значення наступного стану. Це однокроковий метод TD.
Правило оновлення
Нехай задано стан , винагороду та наступний стан , правило оновлення виглядає так:
де
- — коефіцієнт навчання, або розмір кроку;
- — TD-помилка.
Інтуїція
Функцію цінності стану можна визначити та розкласти наступним чином:
Це дає першу частину — отриману винагороду . Друга частина — це очікувана винагорода . TD-помилка — це спостережувана різниця між тим, що фактично сталося, і тим, що ми раніше вважали, що станеться. Таким чином, правило оновлення коригує попередню оцінку на кожному кроці, наближаючи її до істини.
TD(0) проти оцінки Монте-Карло
І TD(0), і оцінка Монте-Карло використовують вибірковий досвід для оцінки функції цінності стану для політики . За стандартних умов збіжності обидва методи сходяться до істинного , коли кількість відвідувань кожного стану прямує до нескінченності. Проте на практиці ми маємо лише обмежену кількість даних, і ці два методи суттєво відрізняються у способі використання цих даних та швидкості навчання.
Компроміс між зміщенням і дисперсією
З точки зору компромісу між зміщенням і дисперсією:
Оцінювання методом Монте-Карло очікує завершення епізоду, а потім використовує повну суму винагород для оновлення значень. Це дає незміщені оцінки — отримані значення дійсно відображають базовий розподіл, — але вони можуть сильно коливатися, особливо у довгих або дуже стохастичних завданнях. Висока дисперсія означає, що потрібно багато епізодів, щоб усереднити шум і отримати стабільні оцінки значень.
TD(0) використовує бутстрепінг, комбінуючи кожну одно-крокову винагороду з поточною оцінкою значення наступного стану. Це вводить зміщення — ранні оновлення спираються на недосконалі оцінки, — але зберігає низьку дисперсію, оскільки кожне оновлення базується на невеликій, поступовій помилці. Низька дисперсія дозволяє TD(0) швидше поширювати інформацію про винагороду через простір станів, хоча початкове зміщення може уповільнювати збіжність.
Навчання на даних проти навчання моделі
Ще один спосіб розглянути ці два методи — проаналізувати, чому саме вони навчаються:
Оцінювання методом Монте-Карло навчається безпосередньо на спостережуваних поверненнях, фактично підганяючи свої оцінки значень під конкретні епізоди, які були побачені. Це означає, що він мінімізує помилку на цих навчальних траєкторіях, але оскільки ніколи не будує явного уявлення про те, як стани переходять один в одного, йому може бути складно узагальнювати на нові або трохи відмінні ситуації.
TD(0), навпаки, використовує бутстрепінг на кожному одно-кроковому переході, комбінуючи негайну винагороду з оцінкою значення наступного стану. Таким чином, він ефективно захоплює взаємозв'язки між станами — неявну модель динаміки середовища. Таке модельне розуміння дозволяє TD(0) краще узагальнювати на невідомі переходи, часто забезпечуючи точніші оцінки значень на нових даних.
Псевдокод
Дякуємо за ваш відгук!