Kurssisisältö
Konenäön Perusteet
Konenäön Perusteet
Yleiskatsaus Suosittuihin CNN-malleihin
Konvoluutiohermoverkot (CNN:t) ovat kehittyneet merkittävästi, ja erilaiset arkkitehtuurit ovat parantaneet tarkkuutta, tehokkuutta ja skaalautuvuutta. Tässä luvussa tarkastellaan viittä keskeistä CNN-mallia, jotka ovat muokanneet syväoppimista: LeNet, AlexNet, VGGNet, ResNet ja InceptionNet.
LeNet: CNN-verkkojen perusta
Yksi ensimmäisistä konvoluutiohermoverkkoarkkitehtuureista, jonka Yann LeCun esitteli vuonna 1998 käsinkirjoitettujen numeroiden tunnistamiseen. Se loi perustan nykyaikaisille CNN-verkoille tuomalla käyttöön keskeiset komponentit, kuten konvoluutiot, poolauskerrokset ja täysin yhdistetyt kerrokset. Lisätietoja mallista löytyy dokumentaatiosta.
Keskeiset arkkitehtuuripiirteet
AlexNet: Syväoppimisen läpimurto
Merkittävä CNN-arkkitehtuuri, joka voitti vuoden 2012 ImageNet-kilpailun. AlexNet osoitti, että syvät konvoluutioneuroverkot voivat ylittää perinteiset koneoppimismenetelmät laajamittaisessa kuvien luokittelussa. Se toi mukanaan innovaatioita, joista tuli standardeja nykyaikaisessa syväoppimisessa. Lisätietoja mallista löytyy dokumentaatiosta.
Keskeiset arkkitehtuuripiirteet
VGGNet: Syvemmät verkot yhtenäisillä suodattimilla
Oxfordin Visual Geometry Groupin kehittämä VGGNet korosti syvyyttä ja yksinkertaisuutta käyttämällä yhtenäisiä 3×3-konvoluutionsuodattimia. Se osoitti, että pienten suodattimien pinoaminen syviin verkkoihin voi merkittävästi parantaa suorituskykyä, mikä johti laajasti käytettyihin versioihin kuten VGG-16 ja VGG-19. Lisätietoja mallista löytyy dokumentaatiosta.
Keskeiset arkkitehtuuripiirteet
ResNet: Syvyyden ongelman ratkaisu
ResNet (Residual Networks), jonka Microsoft esitteli vuonna 2015, ratkaisi katoavan gradientin ongelman, joka ilmenee erittäin syvien verkkojen koulutuksessa. Perinteiset syvät verkot kärsivät koulutustehokkuuden ja suorituskyvyn heikkenemisestä, mutta ResNet ratkaisi tämän ongelman ohitusyhteyksillä (residual learning). Nämä oikopolut mahdollistavat tiedon kulkemisen tiettyjen kerrosten ohi, varmistaen gradienttien tehokkaan etenemisen. ResNet-arkkitehtuurit, kuten ResNet-50 ja ResNet-101, mahdollistivat satojen kerrosten verkkojen koulutuksen, mikä paransi merkittävästi kuvien luokittelun tarkkuutta. Voit lukea lisää mallista dokumentaatiosta.
Keskeiset arkkitehtuuripiirteet
InceptionNet: Monitasoisten piirteiden erottelu
InceptionNet (tunnetaan myös nimellä GoogLeNet) rakentuu inception-moduulin varaan muodostaen syvän mutta tehokkaan arkkitehtuurin. Peräkkäisten kerrosten pinoamisen sijaan InceptionNet hyödyntää rinnakkaisia polkuja piirteiden erotteluun eri tasoilla. Lisätietoja mallista löytyy dokumentaatiosta.
Keskeisiä optimointeja ovat:
Faktoroidut konvoluutiot laskennallisen kustannuksen pienentämiseksi;
Apu-luokittelijat välikerroksissa parantamaan oppimisen vakautta;
Globaali keskiarvopoolaus täysin kytkettyjen kerrosten sijaan, mikä vähentää parametrien määrää suorituskyvyn säilyessä.
Tämän rakenteen ansiosta InceptionNet voi olla syvempi kuin aiemmat CNN:t, kuten VGG, ilman merkittävää laskennallisen vaatimuksen kasvua.
Keskeiset arkkitehtuurin ominaisuudet
Inception-moduuli
Inception-moduuli on InceptionNetin ydinosa, joka on suunniteltu tehokkaaseen piirteiden erotteluun useilla mittakaavoilla. Yhden konvoluutio-operaation sijaan moduuli käsittelee syötteen useilla suodinkoolla (1×1, 3×3, 5×5
) rinnakkain. Tämä mahdollistaa sekä yksityiskohtien että laajojen kuvioiden tunnistamisen kuvasta.
Laskennallisen kustannuksen pienentämiseksi käytetään 1×1 convolutions
ennen suurempien suodinten soveltamista. Nämä vähentävät syötekanavien määrää, mikä tekee verkosta tehokkaamman. Lisäksi maksimipoolaus-kerrokset moduulissa auttavat säilyttämään olennaiset piirteet ja hallitsemaan dimensioita.
Esimerkki
Tarkastellaan esimerkkiä siitä, miten ulottuvuuksien vähentäminen pienentää laskennallista kuormitusta. Oletetaan, että meidän täytyy konvoloida 28 × 28 × 192 input feature maps
käyttäen 5 × 5 × 32 filters
. Tämä operaatio vaatisi noin 120,42 miljoonaa laskutoimitusta.
Suoritetaan laskelmat uudelleen, mutta tällä kertaa lisätään 1×1 convolutional layer
ennen 5×5 convolution
samoihin syötekarttoihin.
Jokainen näistä CNN-arkkitehtuureista on ollut keskeisessä roolissa tietokonenäön kehityksessä, vaikuttaen sovelluksiin kuten terveydenhuolto, autonomiset järjestelmät, turvallisuus ja reaaliaikainen kuvankäsittely. LeNetin perustavanlaatuisista periaatteista InceptionNetin monitasoiseen piirre-etsintään, nämä mallit ovat jatkuvasti vieneet syväoppimista eteenpäin ja luoneet pohjan entistä kehittyneemmille arkkitehtuureille tulevaisuudessa.
1. Mikä oli ResNetin ensisijainen innovaatio, joka mahdollisti erittäin syvien verkkojen kouluttamisen?
2. Miten InceptionNet parantaa laskennallista tehokkuutta verrattuna perinteisiin CNN-verkkoihin?
3. Mikä CNN-arkkitehtuuri esitteli ensimmäisenä pienten 3×3 konvoluutiotumien käytön koko verkossa?
Kiitos palautteestasi!