Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Gradient Descent | Wiskundige Analyse
Wiskunde voor Data Science

bookGradient Descent

Note
Definitie

Gradient Descent is een optimalisatie-algoritme dat een functie minimaliseert door iteratief de parameters aan te passen in de richting van de grootste afname. Het is fundamenteel in machine learning omdat het modellen in staat stelt efficiënt te leren van data.

Gradienten begrijpen

De gradiënt van een functie geeft de richting en steilheid van de functie op een bepaald punt aan. Het geeft aan welke kant we op moeten bewegen om de functie te minimaliseren.

Voor een eenvoudige functie:

J(θ)=θ2J(\theta) = \theta^2

De afgeleide (gradiënt) is:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Dit betekent dat voor elke waarde van θθ, de gradiënt aangeeft hoe θθ aangepast moet worden om af te dalen naar het minimum.

Formule voor Gradient Descent

De regel voor het bijwerken van gewichten is:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Waarbij:

  • θ\theta - modelparameter;
  • α\alpha - leersnelheid (stapgrootte);
  • J(θ)\nabla J(\theta) - gradiënt van de functie die we willen minimaliseren.

Voor onze functie:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Dit betekent dat we θθ iteratief bijwerken door de geschaalde gradiënt af te trekken.

Stapsgewijze Beweging – Een Visueel Voorbeeld

Voorbeeld met startwaarden: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Na enkele iteraties bewegen we richting θ=0θ=0, het minimum.

Leerpercentage – α Verstandig Kiezen

  • Te groot  α\ \alpha - overschrijdt, convergeert nooit;
  • Te klein  α\ \alpha - convergeert te langzaam;
  • Optimaal  α\ \alpha - balans tussen snelheid & nauwkeurigheid.

Wanneer Stopt Gradient Descent?

Gradient descent stopt wanneer:

J(θ)0\nabla J (\theta) \approx 0

Dit betekent dat verdere aanpassingen onbeduidend zijn en dat een minimum is gevonden.

question mark

Als de gradiënt J(θ)∇J(θ) nul is, wat betekent dit?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 9

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 1.96

bookGradient Descent

Veeg om het menu te tonen

Note
Definitie

Gradient Descent is een optimalisatie-algoritme dat een functie minimaliseert door iteratief de parameters aan te passen in de richting van de grootste afname. Het is fundamenteel in machine learning omdat het modellen in staat stelt efficiënt te leren van data.

Gradienten begrijpen

De gradiënt van een functie geeft de richting en steilheid van de functie op een bepaald punt aan. Het geeft aan welke kant we op moeten bewegen om de functie te minimaliseren.

Voor een eenvoudige functie:

J(θ)=θ2J(\theta) = \theta^2

De afgeleide (gradiënt) is:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Dit betekent dat voor elke waarde van θθ, de gradiënt aangeeft hoe θθ aangepast moet worden om af te dalen naar het minimum.

Formule voor Gradient Descent

De regel voor het bijwerken van gewichten is:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Waarbij:

  • θ\theta - modelparameter;
  • α\alpha - leersnelheid (stapgrootte);
  • J(θ)\nabla J(\theta) - gradiënt van de functie die we willen minimaliseren.

Voor onze functie:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Dit betekent dat we θθ iteratief bijwerken door de geschaalde gradiënt af te trekken.

Stapsgewijze Beweging – Een Visueel Voorbeeld

Voorbeeld met startwaarden: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Na enkele iteraties bewegen we richting θ=0θ=0, het minimum.

Leerpercentage – α Verstandig Kiezen

  • Te groot  α\ \alpha - overschrijdt, convergeert nooit;
  • Te klein  α\ \alpha - convergeert te langzaam;
  • Optimaal  α\ \alpha - balans tussen snelheid & nauwkeurigheid.

Wanneer Stopt Gradient Descent?

Gradient descent stopt wanneer:

J(θ)0\nabla J (\theta) \approx 0

Dit betekent dat verdere aanpassingen onbeduidend zijn en dat een minimum is gevonden.

question mark

Als de gradiënt J(θ)∇J(θ) nul is, wat betekent dit?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 9
some-alt