Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Challenge: Modify Exploration Rate | Classic RL Algorithms: Q-learning & SARSA
Hands-On Classic RL Algorithms with Python
Sectie 1. Hoofdstuk 4
single

single

Challenge: Modify Exploration Rate

Veeg om het menu te tonen

Taak

Veeg om te beginnen met coderen

Modify the Q-learning implementation to use the exploration_rate parameter for controlling action selection during training. This challenge builds on your previous work with Q-learning by introducing the concept of exploration versus exploitation.

  • Use the exploration_rate argument to determine whether to select a random action or the best-known action at each step.
  • When a random value is less than exploration_rate, select a random action.
  • Otherwise, select the action with the highest value from the Q-table for the current state.
  • Ensure the rest of the Q-learning algorithm remains unchanged.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 4
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

some-alt