Lære Gradient descent | Matematisk Analyse

Definisjon

Gradient Descent er en optimaliseringsalgoritme som minimerer en funksjon ved å justere parameterne sine iterativt i retning av den bratteste nedgangen. Den er grunnleggende i maskinlæring for å gjøre det mulig for modeller å lære effektivt fra data.

Forståelse av gradienter

Gradienten til en funksjon representerer retningen og brattheten til funksjonen på et gitt punkt. Den forteller oss hvilken vei vi skal bevege oss for å minimere funksjonen.

For en enkel funksjon:

J(\theta) = \theta^2

Derivert (gradienten) er:

\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Dette betyr at for enhver verdi av $θ$ , forteller gradienten oss hvordan vi skal justere $θ$ for å gå nedover mot minimum.

Gradient Descent-formel

Regel for oppdatering av vekt er:

\theta \larr \theta - \alpha \nabla J(\theta)

Hvor:

$\theta$ - modellparameter;
$\alpha$ - læringsrate (størrelse på steg);
$\nabla J(\theta)$ - gradienten til funksjonen vi ønsker å minimere.

For vår funksjon:

\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Dette betyr at vi oppdaterer $θ$ iterativt ved å trekke fra den skalerte gradienten.

Stegvis bevegelse – En visuell

Eksempel med startverdier: $\theta = 3$ , $\alpha = 0.3$

$\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;$
$\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;$
$\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;$
$\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.$

Etter noen iterasjoner nærmer vi oss $θ=0$ , minimum.

Læringsrate – Velg α med omhu

For stor $\ \alpha$ – overskrider, konvergerer aldri;
For liten $\ \alpha$ – konvergerer for sakte;
Optimal $\ \alpha$ – balanserer hastighet og nøyaktighet.

Når stopper gradient descent?

Gradient descent stopper når:

\nabla J (\theta) \approx 0

Dette betyr at videre oppdateringer er ubetydelige og vi har funnet et minimum.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 9

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Sveip for å vise menyen