Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Challenge: Modify Exploration Rate | Classic RL Algorithms: Q-learning & SARSA
Hands-On Classic RL Algorithms with Python
Sección 1. Capítulo 4
single

single

Challenge: Modify Exploration Rate

Desliza para mostrar el menú

Tarea

Desliza para comenzar a programar

Modify the Q-learning implementation to use the exploration_rate parameter for controlling action selection during training. This challenge builds on your previous work with Q-learning by introducing the concept of exploration versus exploitation.

  • Use the exploration_rate argument to determine whether to select a random action or the best-known action at each step.
  • When a random value is less than exploration_rate, select a random action.
  • Otherwise, select the action with the highest value from the Q-table for the current state.
  • Ensure the rest of the Q-learning algorithm remains unchanged.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

some-alt