Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Gradienttimenetelmä | Matemaattinen Analyysi
Matematiikka Data-analytiikkaan

bookGradienttimenetelmä

Note
Määritelmä

Gradienttimenetelmä on optimointialgoritmi, joka minimoi funktion säätämällä sen parametreja iteratiivisesti jyrkimmän laskun suuntaan. Se on keskeinen koneoppimisessa, sillä se mahdollistaa mallien tehokkaan oppimisen datasta.

Gradientin ymmärtäminen

Funktion gradientti kuvaa suuntaa ja jyrkkyyttä tietyssä pisteessä. Se kertoo, mihin suuntaan tulee liikkua funktion minimoimiseksi.

Yksinkertaiselle funktiolle:

J(θ)=θ2J(\theta) = \theta^2

Derivaatta (gradientti) on:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Tämä tarkoittaa, että mille tahansa θθ:n arvolle gradientti kertoo, miten θθ:tä tulee säätää, jotta laskeudutaan kohti minimiä.

Gradienttimenetelmän kaava

Painon päivityssääntö on:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Missä:

  • θ\theta – mallin parametri;
  • α\alpha – oppimisnopeus (askelkoko);
  • J(θ)\nabla J(\theta) – funktion gradientti, jota pyritään minimoimaan.

Funktion tapauksessa:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Tämä tarkoittaa, että päivitämme θθ:tä iteratiivisesti vähentämällä skaalattua gradienttia.

Askelittainen liike – Visuaalinen esimerkki

Alkuarvot: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Muutaman iteraation jälkeen lähestytään arvoa θ=0θ=0, eli minimiä.

Oppimisnopeus – α:n valinta harkiten

  • Liian suuri  α\ \alpha – ylittää minimin, ei konvergoidu;
  • Liian pieni  α\ \alpha – konvergoituu liian hitaasti;
  • Optimaalinen  α\ \alpha – tasapainottaa nopeuden ja tarkkuuden.

Milloin gradienttimenetelmä pysähtyy?

Gradienttimenetelmä pysähtyy, kun:

J(θ)0\nabla J (\theta) \approx 0

Tämä tarkoittaa, että lisäpäivitykset ovat merkityksettömiä ja minimi on saavutettu.

question mark

Jos gradientti J(θ)∇J(θ) on nolla, mitä tämä tarkoittaa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 9

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 1.96

bookGradienttimenetelmä

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Gradienttimenetelmä on optimointialgoritmi, joka minimoi funktion säätämällä sen parametreja iteratiivisesti jyrkimmän laskun suuntaan. Se on keskeinen koneoppimisessa, sillä se mahdollistaa mallien tehokkaan oppimisen datasta.

Gradientin ymmärtäminen

Funktion gradientti kuvaa suuntaa ja jyrkkyyttä tietyssä pisteessä. Se kertoo, mihin suuntaan tulee liikkua funktion minimoimiseksi.

Yksinkertaiselle funktiolle:

J(θ)=θ2J(\theta) = \theta^2

Derivaatta (gradientti) on:

J(θ)=ddθ(θ2)=2θ\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Tämä tarkoittaa, että mille tahansa θθ:n arvolle gradientti kertoo, miten θθ:tä tulee säätää, jotta laskeudutaan kohti minimiä.

Gradienttimenetelmän kaava

Painon päivityssääntö on:

θθαJ(θ)\theta \larr \theta - \alpha \nabla J(\theta)

Missä:

  • θ\theta – mallin parametri;
  • α\alpha – oppimisnopeus (askelkoko);
  • J(θ)\nabla J(\theta) – funktion gradientti, jota pyritään minimoimaan.

Funktion tapauksessa:

θnew=θoldα(2θold)\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Tämä tarkoittaa, että päivitämme θθ:tä iteratiivisesti vähentämällä skaalattua gradienttia.

Askelittainen liike – Visuaalinen esimerkki

Alkuarvot: θ=3\theta = 3, α=0.3\alpha = 0.3

  1. θ1=30.3(2×3)=31.8=1.2;\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;
  2. θ2=1.20.3(2×1.2)=1.20.72=0.48;\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;
  3. θ3=0.480.3(2×0.48)=0.480.288=0.192;\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;
  4. θ4=0.1920.3(2×0.192)=0.1920.115=0.077.\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.

Muutaman iteraation jälkeen lähestytään arvoa θ=0θ=0, eli minimiä.

Oppimisnopeus – α:n valinta harkiten

  • Liian suuri  α\ \alpha – ylittää minimin, ei konvergoidu;
  • Liian pieni  α\ \alpha – konvergoituu liian hitaasti;
  • Optimaalinen  α\ \alpha – tasapainottaa nopeuden ja tarkkuuden.

Milloin gradienttimenetelmä pysähtyy?

Gradienttimenetelmä pysähtyy, kun:

J(θ)0\nabla J (\theta) \approx 0

Tämä tarkoittaa, että lisäpäivitykset ovat merkityksettömiä ja minimi on saavutettu.

question mark

Jos gradientti J(θ)∇J(θ) on nolla, mitä tämä tarkoittaa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 9
some-alt