Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

A ideia por trás da **iteração de política** é simples:
1. Escolher uma $$\pi$$ e $$v$$ iniciais;
2. Utilizar a avaliação de política para atualizar $$v$$ até que esteja consistente com $$\pi$$;
3. Utilizar a melhoria de política para atualizar $$\pi$$ até que seja gananciosa em relação a $$v$$;
4. Repetir os passos 2-3 até a convergência.

Neste método, **não há atualizações parciais**:
- Durante a **avaliação de política**, os valores são atualizados para cada estado, até que estejam consistentes com a política atual;
- Durante a **melhoria de política**, a política é tornada gananciosa em relação à função de valor.

Com base no pseudocódigo, qual condição faz com que o loop externo da iteração de política pare?

O Aprendizado por Reforço (RL) é um ramo poderoso do aprendizado de máquina focado no treinamento de agentes inteligentes por meio da interação com seu ambiente. Neste curso, você aprenderá como os agentes descobrem gradualmente comportamentos eficazes através de tentativa e erro. Começando com conceitos fundamentais como processos de decisão de Markov e multi-armed bandits, você avançará por programação dinâmica, métodos de Monte Carlo e aprendizado por diferença temporal.

Descubra como treinar agentes para tomar decisões ótimas por meio de tentativa e erro.
Explore os fundamentos da teoria de aprendizado por reforço.
Obtenha experiência prática configurando e executando um ambiente Gymnasium.

Domínio do equilíbrio entre exploração e exploração por meio do problema do bandido de múltiplos braços. Implementação de estimativa de valor de ação, métodos ε-greedy, limite superior de confiança e bandido de gradiente. Avaliação do desempenho dos algoritmos em tarefas simuladas de maximização de recompensa.

Domínio da programação dinâmica para RL baseado em modelos.
Descoberta de como as equações de Bellman podem ser utilizadas para avaliar e aprimorar políticas.
Implementação dos algoritmos de iteração de política e de valor.
Exploração da iteração generalizada de políticas como base teórica para métodos sem modelo.

Domínio dos métodos de Monte Carlo para RL sem modelo. Estimativa de funções de valor e derivação de políticas ótimas a partir de episódios completos. Implementação de algoritmos de controle de Monte Carlo on-policy e off-policy. Exploração de estratégias de exploração para otimizar o aprendizado sem modelo.

Domínio do aprendizado por diferença temporal para RL sem modelo. Estimativa de funções de valor a partir de episódios parciais utilizando atualizações TD(0). Implementação dos algoritmos SARSA on-policy e Q-Learning off-policy. Exploração da combinação entre métodos de Monte Carlo e aprendizado por diferença temporal em TD de n passos e TD(λ).

Iteração de Política

Pseudocódigo

Iteração de Política

Pseudocódigo