Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Gradientnedstigning | Matematisk Analyse
Matematik for Datavidenskab

bookGradientnedstigning

Note
Definition

Gradient Descent er en optimeringsalgoritme, der minimerer en funktion ved iterativt at justere dens parametre i retning af det stejleste fald. Den er grundlæggende i maskinlæring, da den muliggør effektiv indlæring fra data for modeller.

Forståelse af gradienter

Gradienten af en funktion repræsenterer retningen og hældningen af funktionen på et givet punkt. Den angiver hvilken vej man skal bevæge sig for at minimere funktionen.

For en simpel funktion:

J(θ)=θ2J(\theta) = \theta^2

Den afledte (gradienten) er:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Dette betyder, at for enhver værdi af θθ, fortæller gradienten os, hvordan vi skal justere θθ for at bevæge os nedad mod minimum.

Gradient Descent-formel

Vægtopdateringsreglen er:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Hvor:

  • θ\theta - modelparameter;
  • α\alpha - læringsrate (skridtlængde);
  • J(θ)\nabla J(\theta) - gradienten af den funktion, vi ønsker at minimere.

For vores funktion:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Dette betyder, at vi opdaterer θθ iterativt ved at trække den skalerede gradient fra.

Trinvist bevægelse – En visuel

Eksempel med startværdier: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Efter nogle få iterationer nærmer vi os θ=0θ=0, minimum.

Læringsrate – Vælg α med omhu

  • For stor  α\ \alpha – overskrider, konvergerer aldrig;
  • For lille  α\ \alpha – konvergerer for langsomt;
  • Optimal  α\ \alpha – balancerer hastighed og nøjagtighed.

Hvornår stopper gradient descent?

Gradient descent stopper når:

J(θ)0\nabla J (\theta) \approx 0

Dette betyder, at yderligere opdateringer er ubetydelige, og vi har fundet et minimum.

question mark

Hvis gradienten J(θ)∇J(θ) er nul, hvad betyder det?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 9

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 1.96

bookGradientnedstigning

Stryg for at vise menuen

Note
Definition

Gradient Descent er en optimeringsalgoritme, der minimerer en funktion ved iterativt at justere dens parametre i retning af det stejleste fald. Den er grundlæggende i maskinlæring, da den muliggør effektiv indlæring fra data for modeller.

Forståelse af gradienter

Gradienten af en funktion repræsenterer retningen og hældningen af funktionen på et givet punkt. Den angiver hvilken vej man skal bevæge sig for at minimere funktionen.

For en simpel funktion:

J(θ)=θ2J(\theta) = \theta^2

Den afledte (gradienten) er:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Dette betyder, at for enhver værdi af θθ, fortæller gradienten os, hvordan vi skal justere θθ for at bevæge os nedad mod minimum.

Gradient Descent-formel

Vægtopdateringsreglen er:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Hvor:

  • θ\theta - modelparameter;
  • α\alpha - læringsrate (skridtlængde);
  • J(θ)\nabla J(\theta) - gradienten af den funktion, vi ønsker at minimere.

For vores funktion:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Dette betyder, at vi opdaterer θθ iterativt ved at trække den skalerede gradient fra.

Trinvist bevægelse – En visuel

Eksempel med startværdier: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Efter nogle få iterationer nærmer vi os θ=0θ=0, minimum.

Læringsrate – Vælg α med omhu

  • For stor  α\ \alpha – overskrider, konvergerer aldrig;
  • For lille  α\ \alpha – konvergerer for langsomt;
  • Optimal  α\ \alpha – balancerer hastighed og nøjagtighed.

Hvornår stopper gradient descent?

Gradient descent stopper når:

J(θ)0\nabla J (\theta) \approx 0

Dette betyder, at yderligere opdateringer er ubetydelige, og vi har fundet et minimum.

question mark

Hvis gradienten J(θ)∇J(θ) er nul, hvad betyder det?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 9
some-alt