Секція 1. Розділ 4
single
Challenge: Modify Exploration Rate
Свайпніть щоб показати меню
Завдання
Проведіть, щоб почати кодувати
Modify the Q-learning implementation to use the exploration_rate parameter for controlling action selection during training. This challenge builds on your previous work with Q-learning by introducing the concept of exploration versus exploitation.
- Use the
exploration_rateargument to determine whether to select a random action or the best-known action at each step. - When a random value is less than
exploration_rate, select a random action. - Otherwise, select the action with the highest value from the Q-table for the current state.
- Ensure the rest of the Q-learning algorithm remains unchanged.
Рішення
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 1. Розділ 4
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат