Oppiskele Yleiskatsaus Suosittuihin CNN-malleihin

Pyyhkäise näyttääksesi valikon

Konvoluutiohermoverkot (CNN:t) ovat kehittyneet merkittävästi, ja erilaiset arkkitehtuurit ovat parantaneet tarkkuutta, tehokkuutta ja skaalautuvuutta. Tässä luvussa tarkastellaan viittä keskeistä CNN-mallia, jotka ovat muokanneet syväoppimista: LeNet, AlexNet, VGGNet, ResNet ja InceptionNet.

LeNet: CNN-verkkojen perusta

Yksi ensimmäisistä konvoluutiohermoverkkojen arkkitehtuureista, jonka Yann LeCun esitteli vuonna 1998 käsinkirjoitettujen numeroiden tunnistamiseen. Se loi perustan nykyaikaisille CNN-verkoille tuomalla käyttöön keskeiset komponentit, kuten konvoluutiot, poolauskerrokset ja täysin yhdistetyt kerrokset. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuuripiirteet

AlexNet: Syväoppimisen läpimurto

Merkittävä CNN-arkkitehtuuri, joka voitti vuoden 2012 ImageNet-kilpailun. AlexNet osoitti, että syvät konvoluutioverkot voivat huomattavasti ylittää perinteiset koneoppimismenetelmät laajamittaisessa kuvien luokittelussa. Se toi mukanaan innovaatioita, joista tuli vakiintuneita nykyaikaisessa syväoppimisessa. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuuripiirteet

VGGNet: Syvemmät verkot yhtenäisillä suodattimilla

Visual Geometry Groupin (Oxford) kehittämä VGGNet korosti syvyyttä ja yksinkertaisuutta käyttämällä yhtenäisiä 3×3 konvoluutiosuodattimia. Malli osoitti, että pienten suodattimien pinoaminen syviin verkkoihin voi merkittävästi parantaa suorituskykyä, mikä johti laajasti käytettyihin versioihin kuten VGG-16 ja VGG-19. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuuripiirteet

ResNet: Syvyyden ongelman ratkaisu

ResNet (Residual Networks), jonka Microsoft esitteli vuonna 2015, ratkaisi katoavan gradientin ongelman, joka ilmenee erittäin syviä verkkoja koulutettaessa. Perinteiset syvät verkot kohtaavat haasteita koulutustehokkuudessa ja suorituskyvyn heikkenemisessä, mutta ResNet ratkaisi tämän ongelman ohitusyhteyksillä (residual learning). Nämä oikopolut mahdollistavat tiedon kulkemisen tiettyjen kerrosten ohi, varmistaen gradienttien tehokkaan etenemisen. ResNet-arkkitehtuurit, kuten ResNet-50 ja ResNet-101, mahdollistivat satojen kerrosten verkkojen kouluttamisen, mikä paransi merkittävästi kuvien luokittelun tarkkuutta. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuuripiirteet

InceptionNet: Monitasoisten piirteiden erottelu

InceptionNet (tunnetaan myös nimellä GoogLeNet) perustuu inception-moduuliin muodostaen syvän mutta tehokkaan arkkitehtuurin. Peräkkäisten kerrosten pinoamisen sijaan InceptionNet hyödyntää rinnakkaisia polkuja piirteiden erotteluun eri tasoilla. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeisiä optimointeja ovat:

Faktoroidut konvoluutiot laskennallisen kuorman pienentämiseksi;
Apu-luokittelijat välikerroksissa parantamaan oppimisen vakautta;
Globaali keskiarvopoolaus täysin kytkettyjen kerrosten sijaan, mikä vähentää parametrien määrää suorituskyvyn säilyessä.

Tämän rakenteen ansiosta InceptionNet voi olla syvempi kuin aiemmat CNN:t, kuten VGG, ilman merkittävää laskennallisen vaatimuksen kasvua.

Keskeiset arkkitehtuurin ominaisuudet

Inception-moduuli

Inception-moduuli on InceptionNet-verkon ydinosa, joka on suunniteltu tehokkaaseen piirteiden tunnistamiseen useilla eri mittakaavoilla. Yhden konvoluution sijaan moduuli käsittelee syötteen rinnakkain useilla suodinkoolla (1×1, 3×3, 5×5). Tämä mahdollistaa sekä pienten yksityiskohtien että suurten kuvioiden tunnistamisen kuvasta.

Laskennallisen tehon vähentämiseksi käytetään 1×1 convolutions ennen suurempia suotimia. Näillä vähennetään syötekanavien määrää, mikä tekee verkosta tehokkaamman. Lisäksi maksimipoolauskerrokset moduulissa auttavat säilyttämään olennaiset piirteet ja hallitsemaan ulottuvuuksia.

Esimerkki

Tarkastellaan esimerkkiä, joka havainnollistaa, kuinka ulottuvuuksien vähentäminen pienentää laskennallista kuormitusta. Oletetaan, että meidän täytyy konvoloida 28 × 28 × 192 input feature maps käyttäen 5 × 5 × 32 filters. Tämä operaatio vaatii noin 120,42 miljoonaa laskutoimitusta.

Huomio

Number of operations = (2828192) * (5532) = 120,422,400 operations

Suoritetaan laskelmat uudelleen, mutta tällä kertaa asetetaan 1×1 convolutional layer ennen kuin sovelletaan 5×5 convolution samoihin syöteominaisuuskarttoihin.

Huomio

Number of operations for 1x1 convolution = (2828192) * (1116) = 2,408,448 operations

Number of operations for 5x5 convolution = (282816) * (5532) = 10,035,200 operations

Total number of operations 2,408,448 + 10,035,200 = 12,443,648 operations

Jokainen näistä CNN-arkkitehtuureista on ollut keskeisessä roolissa tietokonenäön kehityksessä, vaikuttaen sovelluksiin kuten terveydenhuolto, autonomiset järjestelmät, turvallisuus ja reaaliaikainen kuvankäsittely. LeNetin perustavanlaatuisista periaatteista InceptionNetin moniskaalaiseen piirre-etsintään nämä mallit ovat jatkuvasti vieneet syväoppimisen rajoja eteenpäin, luoden pohjan entistä kehittyneemmille arkkitehtuureille tulevaisuudessa.