Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Gradient descent | Matematisk Analyse
Matematikk for Datavitenskap

bookGradient descent

Note
Definisjon

Gradient Descent er en optimaliseringsalgoritme som minimerer en funksjon ved å justere parameterne sine iterativt i retning av den bratteste nedgangen. Den er grunnleggende i maskinlæring for å gjøre det mulig for modeller å lære effektivt fra data.

Forståelse av gradienter

Gradienten til en funksjon representerer retningen og brattheten til funksjonen på et gitt punkt. Den forteller oss hvilken vei vi skal bevege oss for å minimere funksjonen.

For en enkel funksjon:

J(θ)=θ2J(\theta) = \theta^2

Derivert (gradienten) er:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Dette betyr at for enhver verdi av θθ, forteller gradienten oss hvordan vi skal justere θθ for å gå nedover mot minimum.

Gradient Descent-formel

Regel for oppdatering av vekt er:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Hvor:

  • θ\theta - modellparameter;
  • α\alpha - læringsrate (størrelse på steg);
  • J(θ)\nabla J(\theta) - gradienten til funksjonen vi ønsker å minimere.

For vår funksjon:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Dette betyr at vi oppdaterer θθ iterativt ved å trekke fra den skalerte gradienten.

Stegvis bevegelse – En visuell

Eksempel med startverdier: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Etter noen iterasjoner nærmer vi oss θ=0θ=0, minimum.

Læringsrate – Velg α med omhu

  • For stor  α\ \alpha – overskrider, konvergerer aldri;
  • For liten  α\ \alpha – konvergerer for sakte;
  • Optimal  α\ \alpha – balanserer hastighet og nøyaktighet.

Når stopper gradient descent?

Gradient descent stopper når:

J(θ)0\nabla J (\theta) \approx 0

Dette betyr at videre oppdateringer er ubetydelige og vi har funnet et minimum.

question mark

Hvis gradienten J(θ)∇J(θ) er null, hva betyr dette?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 9

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Awesome!

Completion rate improved to 1.96

bookGradient descent

Sveip for å vise menyen

Note
Definisjon

Gradient Descent er en optimaliseringsalgoritme som minimerer en funksjon ved å justere parameterne sine iterativt i retning av den bratteste nedgangen. Den er grunnleggende i maskinlæring for å gjøre det mulig for modeller å lære effektivt fra data.

Forståelse av gradienter

Gradienten til en funksjon representerer retningen og brattheten til funksjonen på et gitt punkt. Den forteller oss hvilken vei vi skal bevege oss for å minimere funksjonen.

For en enkel funksjon:

J(θ)=θ2J(\theta) = \theta^2

Derivert (gradienten) er:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Dette betyr at for enhver verdi av θθ, forteller gradienten oss hvordan vi skal justere θθ for å gå nedover mot minimum.

Gradient Descent-formel

Regel for oppdatering av vekt er:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Hvor:

  • θ\theta - modellparameter;
  • α\alpha - læringsrate (størrelse på steg);
  • J(θ)\nabla J(\theta) - gradienten til funksjonen vi ønsker å minimere.

For vår funksjon:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Dette betyr at vi oppdaterer θθ iterativt ved å trekke fra den skalerte gradienten.

Stegvis bevegelse – En visuell

Eksempel med startverdier: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Etter noen iterasjoner nærmer vi oss θ=0θ=0, minimum.

Læringsrate – Velg α med omhu

  • For stor  α\ \alpha – overskrider, konvergerer aldri;
  • For liten  α\ \alpha – konvergerer for sakte;
  • Optimal  α\ \alpha – balanserer hastighet og nøyaktighet.

Når stopper gradient descent?

Gradient descent stopper når:

J(θ)0\nabla J (\theta) \approx 0

Dette betyr at videre oppdateringer er ubetydelige og vi har funnet et minimum.

question mark

Hvis gradienten J(θ)∇J(θ) er null, hva betyr dette?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 9
some-alt