Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Gradientnedstigning | Matematisk Analys
Matematik för datavetenskap

bookGradientnedstigning

Note
Definition

Gradient Descent är en optimeringsalgoritm som minimerar en funktion genom att iterativt justera dess parametrar i riktning mot den brantaste minskningen. Den är grundläggande inom maskininlärning för att möjliggöra effektiv inlärning från data.

Förståelse av gradienter

Gradienten av en funktion representerar riktningen och lutningen av funktionen vid en given punkt. Den visar åt vilket håll man ska röra sig för att minimera funktionen.

För en enkel funktion:

J(θ)=θ2J(\theta) = \theta^2

Derivatan (gradienten) är:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Detta innebär att för varje värde på θθ, visar gradienten hur vi ska justera θθ för att närma oss minimum.

Gradient Descent-formel

Regeln för viktuppdatering är:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Där:

  • θ\theta – modellparameter;
  • α\alpha – inlärningshastighet (stegstorlek);
  • J(θ)\nabla J(\theta) – gradienten av funktionen vi vill minimera.

För vår funktion:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Detta innebär att vi uppdaterar θθ iterativt genom att subtrahera den skalade gradienten.

Stegvis förflyttning – En visuell

Exempel med startvärden: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Efter några iterationer närmar vi oss θ=0θ=0, minimum.

Inlärningshastighet – Välj α med omsorg

  • För stort  α\ \alpha – överskjuter, konvergerar aldrig;
  • För litet  α\ \alpha – konvergerar för långsamt;
  • Optimalt  α\ \alpha – balanserar hastighet och noggrannhet.

När slutar gradientnedstigning?

Gradientnedstigning slutar när:

J(θ)0\nabla J (\theta) \approx 0

Detta innebär att ytterligare uppdateringar är obetydliga och att vi har hittat ett minimum.

question mark

Om gradienten J(θ)∇J(θ) är noll, vad betyder detta?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 9

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Awesome!

Completion rate improved to 1.96

bookGradientnedstigning

Svep för att visa menyn

Note
Definition

Gradient Descent är en optimeringsalgoritm som minimerar en funktion genom att iterativt justera dess parametrar i riktning mot den brantaste minskningen. Den är grundläggande inom maskininlärning för att möjliggöra effektiv inlärning från data.

Förståelse av gradienter

Gradienten av en funktion representerar riktningen och lutningen av funktionen vid en given punkt. Den visar åt vilket håll man ska röra sig för att minimera funktionen.

För en enkel funktion:

J(θ)=θ2J(\theta) = \theta^2

Derivatan (gradienten) är:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Detta innebär att för varje värde på θθ, visar gradienten hur vi ska justera θθ för att närma oss minimum.

Gradient Descent-formel

Regeln för viktuppdatering är:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Där:

  • θ\theta – modellparameter;
  • α\alpha – inlärningshastighet (stegstorlek);
  • J(θ)\nabla J(\theta) – gradienten av funktionen vi vill minimera.

För vår funktion:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Detta innebär att vi uppdaterar θθ iterativt genom att subtrahera den skalade gradienten.

Stegvis förflyttning – En visuell

Exempel med startvärden: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Efter några iterationer närmar vi oss θ=0θ=0, minimum.

Inlärningshastighet – Välj α med omsorg

  • För stort  α\ \alpha – överskjuter, konvergerar aldrig;
  • För litet  α\ \alpha – konvergerar för långsamt;
  • Optimalt  α\ \alpha – balanserar hastighet och noggrannhet.

När slutar gradientnedstigning?

Gradientnedstigning slutar när:

J(θ)0\nabla J (\theta) \approx 0

Detta innebär att ytterligare uppdateringar är obetydliga och att vi har hittat ett minimum.

question mark

Om gradienten J(θ)∇J(θ) är noll, vad betyder detta?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 9
some-alt