Oppiskele Gradienttimenetelmä | Matemaattinen Analyysi

Määritelmä

Gradienttimenetelmä on optimointialgoritmi, joka minimoi funktion säätämällä sen parametreja iteratiivisesti jyrkimmän laskun suuntaan. Se on keskeinen koneoppimisessa, sillä se mahdollistaa mallien tehokkaan oppimisen datasta.

Gradientin ymmärtäminen

Funktion gradientti kuvaa suuntaa ja jyrkkyyttä tietyssä pisteessä. Se kertoo, mihin suuntaan tulee liikkua funktion minimoimiseksi.

Yksinkertaiselle funktiolle:

J(\theta) = \theta^2

Derivaatta (gradientti) on:

\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Tämä tarkoittaa, että mille tahansa $θ$ :n arvolle gradientti kertoo, miten $θ$ :tä tulee säätää, jotta laskeudutaan kohti minimiä.

Gradienttimenetelmän kaava

Painon päivityssääntö on:

\theta \larr \theta - \alpha \nabla J(\theta)

Missä:

$\theta$ – mallin parametri;
$\alpha$ – oppimisnopeus (askelkoko);
$\nabla J(\theta)$ – funktion gradientti, jota pyritään minimoimaan.

Funktion tapauksessa:

\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Tämä tarkoittaa, että päivitämme $θ$ :tä iteratiivisesti vähentämällä skaalattua gradienttia.

Askelittainen liike – Visuaalinen esimerkki

Alkuarvot: $\theta = 3$ , $\alpha = 0.3$

$\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;$
$\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;$
$\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;$
$\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.$

Muutaman iteraation jälkeen lähestytään arvoa $θ=0$ , eli minimiä.

Oppimisnopeus – α:n valinta harkiten

Liian suuri $\ \alpha$ – ylittää minimin, ei konvergoidu;
Liian pieni $\ \alpha$ – konvergoituu liian hitaasti;
Optimaalinen $\ \alpha$ – tasapainottaa nopeuden ja tarkkuuden.

Milloin gradienttimenetelmä pysähtyy?

Gradienttimenetelmä pysähtyy, kun:

\nabla J (\theta) \approx 0

Tämä tarkoittaa, että lisäpäivitykset ovat merkityksettömiä ja minimi on saavutettu.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 9

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Pyyhkäise näyttääksesi valikon