Gradienttimenetelmä
Gradienttimenetelmä on optimointialgoritmi, joka minimoi funktion säätämällä sen parametreja iteratiivisesti jyrkimmän laskun suuntaan. Se on keskeinen koneoppimisessa, sillä se mahdollistaa mallien tehokkaan oppimisen datasta.
Gradientin ymmärtäminen
Funktion gradientti kuvaa suuntaa ja jyrkkyyttä tietyssä pisteessä. Se kertoo, mihin suuntaan tulee liikkua funktion minimoimiseksi.
Yksinkertaiselle funktiolle:
J(θ)=θ2Derivaatta (gradientti) on:
∇J(θ)=dθd(θ2)=2θTämä tarkoittaa, että mille tahansa θ:n arvolle gradientti kertoo, miten θ:tä tulee säätää, jotta laskeudutaan kohti minimiä.
Gradienttimenetelmän kaava
Painon päivityssääntö on:
θ←θ−α∇J(θ)Missä:
- θ – mallin parametri;
- α – oppimisnopeus (askelkoko);
- ∇J(θ) – funktion gradientti, jota pyritään minimoimaan.
Funktion tapauksessa:
θnew=θold−α(2θold)Tämä tarkoittaa, että päivitämme θ:tä iteratiivisesti vähentämällä skaalattua gradienttia.
Askelittainen liike – Visuaalinen esimerkki
Alkuarvot: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Muutaman iteraation jälkeen lähestytään arvoa θ=0, eli minimiä.
Oppimisnopeus – α:n valinta harkiten
- Liian suuri α – ylittää minimin, ei konvergoidu;
- Liian pieni α – konvergoituu liian hitaasti;
- Optimaalinen α – tasapainottaa nopeuden ja tarkkuuden.
Milloin gradienttimenetelmä pysähtyy?
Gradienttimenetelmä pysähtyy, kun:
∇J(θ)≈0Tämä tarkoittaa, että lisäpäivitykset ovat merkityksettömiä ja minimi on saavutettu.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 1.96
Gradienttimenetelmä
Pyyhkäise näyttääksesi valikon
Gradienttimenetelmä on optimointialgoritmi, joka minimoi funktion säätämällä sen parametreja iteratiivisesti jyrkimmän laskun suuntaan. Se on keskeinen koneoppimisessa, sillä se mahdollistaa mallien tehokkaan oppimisen datasta.
Gradientin ymmärtäminen
Funktion gradientti kuvaa suuntaa ja jyrkkyyttä tietyssä pisteessä. Se kertoo, mihin suuntaan tulee liikkua funktion minimoimiseksi.
Yksinkertaiselle funktiolle:
J(θ)=θ2Derivaatta (gradientti) on:
∇J(θ)=dθd(θ2)=2θTämä tarkoittaa, että mille tahansa θ:n arvolle gradientti kertoo, miten θ:tä tulee säätää, jotta laskeudutaan kohti minimiä.
Gradienttimenetelmän kaava
Painon päivityssääntö on:
θ←θ−α∇J(θ)Missä:
- θ – mallin parametri;
- α – oppimisnopeus (askelkoko);
- ∇J(θ) – funktion gradientti, jota pyritään minimoimaan.
Funktion tapauksessa:
θnew=θold−α(2θold)Tämä tarkoittaa, että päivitämme θ:tä iteratiivisesti vähentämällä skaalattua gradienttia.
Askelittainen liike – Visuaalinen esimerkki
Alkuarvot: θ=3, α=0.3
- θ1=3−0.3(2×3)=3−1.8=1.2;
- θ2=1.2−0.3(2×1.2)=1.2−0.72=0.48;
- θ3=0.48−0.3(2×0.48)=0.48−0.288=0.192;
- θ4=0.192−0.3(2×0.192)=0.192−0.115=0.077.
Muutaman iteraation jälkeen lähestytään arvoa θ=0, eli minimiä.
Oppimisnopeus – α:n valinta harkiten
- Liian suuri α – ylittää minimin, ei konvergoidu;
- Liian pieni α – konvergoituu liian hitaasti;
- Optimaalinen α – tasapainottaa nopeuden ja tarkkuuden.
Milloin gradienttimenetelmä pysähtyy?
Gradienttimenetelmä pysähtyy, kun:
∇J(θ)≈0Tämä tarkoittaa, että lisäpäivitykset ovat merkityksettömiä ja minimi on saavutettu.
Kiitos palautteestasi!