Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Descida do Gradiente | Análise Matemática
Matemática para Ciência de Dados

bookDescida do Gradiente

Note
Definição

Descida do Gradiente é um algoritmo de otimização que minimiza uma função ajustando iterativamente seus parâmetros na direção da maior diminuição. É fundamental em aprendizado de máquina para permitir que modelos aprendam de forma eficiente a partir dos dados.

Compreendendo Gradientes

O gradiente de uma função representa a direção e inclinação da função em um determinado ponto. Ele indica para onde mover para minimizar a função.

Para uma função simples:

J(θ)=θ2J(\theta) = \theta^2

A derivada (gradiente) é:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Isso significa que, para qualquer valor de θθ, o gradiente indica como ajustar θθ para descer em direção ao mínimo.

Fórmula da Descida do Gradiente

A regra de atualização dos pesos é:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Onde:

  • θ\theta - parâmetro do modelo;
  • α\alpha - taxa de aprendizado (tamanho do passo);
  • J(θ)\nabla J(\theta) - gradiente da função que desejamos minimizar.

Para nossa função:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Isso significa que atualizamos θθ iterativamente subtraindo o gradiente escalado.

Movimento Passo a Passo – Um Exemplo Visual

Exemplo com valores iniciais: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Após algumas iterações, aproximação de θ=0θ=0, o mínimo.

Taxa de Aprendizagem – Escolha Sábia de α

  • Muito grande  α\ \alpha - ultrapassa, nunca converge;
  • Muito pequena  α\ \alpha - converge muito lentamente;
  • Ótima  α\ \alpha - equilíbrio entre velocidade e precisão.

Quando o Gradiente Descendente Para?

O gradiente descendente para quando:

J(θ)0\nabla J (\theta) \approx 0

Isso significa que as próximas atualizações são insignificantes e foi encontrado um mínimo.

question mark

Se o gradiente J(θ)∇J(θ) é zero, o que isso significa?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 9

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 1.96

bookDescida do Gradiente

Deslize para mostrar o menu

Note
Definição

Descida do Gradiente é um algoritmo de otimização que minimiza uma função ajustando iterativamente seus parâmetros na direção da maior diminuição. É fundamental em aprendizado de máquina para permitir que modelos aprendam de forma eficiente a partir dos dados.

Compreendendo Gradientes

O gradiente de uma função representa a direção e inclinação da função em um determinado ponto. Ele indica para onde mover para minimizar a função.

Para uma função simples:

J(θ)=θ2J(\theta) = \theta^2

A derivada (gradiente) é:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Isso significa que, para qualquer valor de θθ, o gradiente indica como ajustar θθ para descer em direção ao mínimo.

Fórmula da Descida do Gradiente

A regra de atualização dos pesos é:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Onde:

  • θ\theta - parâmetro do modelo;
  • α\alpha - taxa de aprendizado (tamanho do passo);
  • J(θ)\nabla J(\theta) - gradiente da função que desejamos minimizar.

Para nossa função:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Isso significa que atualizamos θθ iterativamente subtraindo o gradiente escalado.

Movimento Passo a Passo – Um Exemplo Visual

Exemplo com valores iniciais: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Após algumas iterações, aproximação de θ=0θ=0, o mínimo.

Taxa de Aprendizagem – Escolha Sábia de α

  • Muito grande  α\ \alpha - ultrapassa, nunca converge;
  • Muito pequena  α\ \alpha - converge muito lentamente;
  • Ótima  α\ \alpha - equilíbrio entre velocidade e precisão.

Quando o Gradiente Descendente Para?

O gradiente descendente para quando:

J(θ)0\nabla J (\theta) \approx 0

Isso significa que as próximas atualizações são insignificantes e foi encontrado um mínimo.

question mark

Se o gradiente J(θ)∇J(θ) é zero, o que isso significa?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 9
some-alt