Descida do Gradiente
Descida do Gradiente é um algoritmo de otimização que minimiza uma função ajustando iterativamente seus parâmetros na direção da maior diminuição. É fundamental em aprendizado de máquina para permitir que modelos aprendam de forma eficiente a partir dos dados.
Compreendendo Gradientes
O gradiente de uma função representa a direção e inclinação da função em um determinado ponto. Ele indica para onde mover para minimizar a função.
Para uma função simples:
J(θ)=θ2A derivada (gradiente) é:
∇J(θ)=dθd(θ2)=2θIsso significa que, para qualquer valor de θ, o gradiente indica como ajustar θ para descer em direção ao mínimo.
Fórmula da Descida do Gradiente
A regra de atualização dos pesos é:
θ←θ−α∇J(θ)Onde:
- θ - parâmetro do modelo;
- α - taxa de aprendizado (tamanho do passo);
- ∇J(θ) - gradiente da função que desejamos minimizar.
Para nossa função:
θnew=θold−α(2θold)Isso significa que atualizamos θ iterativamente subtraindo o gradiente escalado.
Movimento Passo a Passo – Um Exemplo Visual
Exemplo com valores iniciais: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Após algumas iterações, aproximação de θ=0, o mínimo.
Taxa de Aprendizagem – Escolha Sábia de α
- Muito grande α - ultrapassa, nunca converge;
- Muito pequena α - converge muito lentamente;
- Ótima α - equilíbrio entre velocidade e precisão.
Quando o Gradiente Descendente Para?
O gradiente descendente para quando:
∇J(θ)≈0Isso significa que as próximas atualizações são insignificantes e foi encontrado um mínimo.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 1.96
Descida do Gradiente
Deslize para mostrar o menu
Descida do Gradiente é um algoritmo de otimização que minimiza uma função ajustando iterativamente seus parâmetros na direção da maior diminuição. É fundamental em aprendizado de máquina para permitir que modelos aprendam de forma eficiente a partir dos dados.
Compreendendo Gradientes
O gradiente de uma função representa a direção e inclinação da função em um determinado ponto. Ele indica para onde mover para minimizar a função.
Para uma função simples:
J(θ)=θ2A derivada (gradiente) é:
∇J(θ)=dθd(θ2)=2θIsso significa que, para qualquer valor de θ, o gradiente indica como ajustar θ para descer em direção ao mínimo.
Fórmula da Descida do Gradiente
A regra de atualização dos pesos é:
θ←θ−α∇J(θ)Onde:
- θ - parâmetro do modelo;
- α - taxa de aprendizado (tamanho do passo);
- ∇J(θ) - gradiente da função que desejamos minimizar.
Para nossa função:
θnew=θold−α(2θold)Isso significa que atualizamos θ iterativamente subtraindo o gradiente escalado.
Movimento Passo a Passo – Um Exemplo Visual
Exemplo com valores iniciais: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Após algumas iterações, aproximação de θ=0, o mínimo.
Taxa de Aprendizagem – Escolha Sábia de α
- Muito grande α - ultrapassa, nunca converge;
- Muito pequena α - converge muito lentamente;
- Ótima α - equilíbrio entre velocidade e precisão.
Quando o Gradiente Descendente Para?
O gradiente descendente para quando:
∇J(θ)≈0Isso significa que as próximas atualizações são insignificantes e foi encontrado um mínimo.
Obrigado pelo seu feedback!