Kurssisisältö
Konenäön Perusteet
Konenäön Perusteet
Aktivointifunktiot
Miksi aktivointifunktiot ovat ratkaisevia konvoluutiohermoverkoissa
Aktivointifunktiot tuovat epälineaarisuutta konvoluutiohermoverkkoihin, mahdollistaen monimutkaisten kuvioiden oppimisen, mihin pelkkä lineaarinen malli ei kykene. Ilman aktivointifunktioita konvoluutiohermoverkot eivät pystyisi havaitsemaan monimutkaisia yhteyksiä datassa, mikä rajoittaisi niiden tehokkuutta kuvantunnistuksessa ja luokittelussa. Oikea aktivointifunktio vaikuttaa oppimisen nopeuteen, vakauteen ja kokonaisvaltaiseen suorituskykyyn.
Yleiset aktivointifunktiot
ReLU (rectified linear unit): yleisimmin käytetty aktivointifunktio konvoluutiohermoverkoissa. Se päästää läpi vain positiiviset arvot ja asettaa kaikki negatiiviset syötteet nollaksi, mikä tekee siitä laskennallisesti tehokkaan ja ehkäisee katoavien gradienttien ongelmaa. Kuitenkin osa neuroneista voi jäädä pysyvästi passiivisiksi niin sanotun "kuolevan ReLU:n" vuoksi;
Leaky ReLU: ReLU:n muunnelma, joka sallii pienet negatiiviset arvot nollan sijaan, estäen passiiviset neuronit ja parantaen gradientin kulkua;
Sigmoid: puristaa syötearvot välille 0 ja 1, mikä tekee siitä hyödyllisen binääriluokittelussa. Kuitenkin se kärsii katoavista gradienttiarvoista syvissä verkoissa;
Tanh: samanlainen kuin Sigmoid, mutta tuottaa arvoja välillä -1 ja 1, keskittäen aktivoinnit nollan ympärille;
Softmax: Tyypillisesti käytetään viimeisessä kerroksessa moniluokkaluokittelussa. Softmax muuntaa verkon raakatulokset todennäköisyyksiksi, jotka summautuvat yhteen, mikä parantaa tulosten tulkittavuutta.
Oikean aktivointifunktion valinta
ReLU on oletusvalinta piilokerroksille tehokkuutensa ja vahvan suorituskykynsä ansiosta, kun taas Leaky ReLU on parempi vaihtoehto, jos neuronien passiivisuus muodostuu ongelmaksi. Sigmoid ja Tanh jätetään yleensä pois syvissä konvoluutioverkoissa, mutta ne voivat olla hyödyllisiä tietyissä sovelluksissa. Softmax on olennainen moniluokkaluokittelutehtävissä, sillä se mahdollistaa selkeät todennäköisyyspohjaiset ennusteet.
Oikean aktivointifunktion valinta on keskeistä CNN:n suorituskyvyn optimoinnissa, tehokkuuden tasapainottamisessa ja ongelmien, kuten katoavien tai räjähtävien gradienttien, ehkäisyssä. Jokainen funktio vaikuttaa omalla tavallaan siihen, miten verkko käsittelee ja oppii visuaalisesta datasta.
1. Miksi ReLU on suositumpi kuin Sigmoid syvissä CNN-malleissa?
2. Mitä aktivointifunktiota käytetään yleisesti moniluokkaluokittelun CNN:n viimeisessä kerroksessa?
3. Mikä on Leaky ReLU:n tärkein etu verrattuna tavalliseen ReLU:hun?
Kiitos palautteestasi!