Oppiskele Yleiskatsaus Suosittuihin CNN-malleihin

Pyyhkäise näyttääksesi valikon

Konvoluutiohermoverkot (CNN:t) ovat kehittyneet merkittävästi, ja erilaiset arkkitehtuurit ovat parantaneet tarkkuutta, tehokkuutta ja skaalautuvuutta. Tässä luvussa tarkastellaan viittä keskeistä CNN-mallia, jotka ovat muokanneet syväoppimista: LeNet, AlexNet, VGGNet, ResNet ja InceptionNet.

LeNet: CNN-verkkojen perusta

Yksi ensimmäisistä konvoluutiohermoverkkojen arkkitehtuureista, jonka Yann LeCun esitteli vuonna 1998 käsinkirjoitettujen numeroiden tunnistukseen. Se loi perustan nykyaikaisille CNN-verkoille tuomalla käyttöön keskeiset komponentit, kuten konvoluutiot, poolaus- ja täysin kytketyt kerrokset. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuuripiirteet

AlexNet: Syväoppimisen läpimurto

Merkittävä CNN-arkkitehtuuri, joka voitti vuoden 2012 ImageNet-kilpailun. AlexNet osoitti, että syvät konvoluutioverkot voivat ylittää perinteiset koneoppimismenetelmät laajamittaisessa kuvien luokittelussa. Se toi mukanaan innovaatioita, joista tuli standardeja modernissa syväoppimisessa. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuurin ominaisuudet

VGGNet: Syvemmät verkot yhtenäisillä suodattimilla

Visual Geometry Groupin (Oxford) kehittämä VGGNet korosti syvyyttä ja yksinkertaisuutta käyttämällä yhtenäisiä 3×3 konvoluutiosuodattimia. Malli osoitti, että pienten suodattimien pinoaminen syviin verkkoihin voi merkittävästi parantaa suorituskykyä, mikä johti laajasti käytettyihin versioihin, kuten VGG-16 ja VGG-19. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuuripiirteet

ResNet: Syvyyden ongelman ratkaisu

ResNet (Residual Networks), jonka Microsoft esitteli vuonna 2015, ratkaisi katoavan gradientin ongelman, joka ilmenee erittäin syvien verkkojen koulutuksessa. Perinteiset syvät verkot kohtaavat haasteita koulutustehokkuudessa ja suorituskyvyn heikkenemisessä, mutta ResNet ratkaisi tämän ongelman ohitusyhteyksillä (residual learning). Nämä oikopolut mahdollistavat tiedon kulkemisen joidenkin kerrosten ohi, varmistaen gradienttien tehokkaan etenemisen. ResNet-arkkitehtuurit, kuten ResNet-50 ja ResNet-101, mahdollistivat satojen kerrosten verkkojen koulutuksen, mikä paransi merkittävästi kuvien luokittelun tarkkuutta. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeiset arkkitehtuuripiirteet

InceptionNet: Monitasoisten piirteiden erottelu

InceptionNet (tunnetaan myös nimellä GoogLeNet) perustuu inception-moduuliin muodostaen syvän mutta tehokkaan arkkitehtuurin. Kerrosten peräkkäisen pinoamisen sijaan InceptionNet hyödyntää rinnakkaisia polkuja piirteiden erotteluun eri tasoilla. Lisätietoja mallista löytyy dokumentaatiosta.

Keskeisiä optimointeja ovat:

Faktoroidut konvoluutiot laskennallisen kustannuksen pienentämiseksi;
Apu-luokittelijat välikerroksissa parantamaan oppimisen vakautta;
Globaali keskiarvopoolaus täysin yhdistettyjen kerrosten sijaan, mikä vähentää parametrien määrää suorituskyvyn säilyessä.

Tämä rakenne mahdollistaa InceptionNetin olevan syvempi kuin aiemmat CNN:t, kuten VGG, ilman merkittävää laskennallisen vaatimuksen kasvua.

Keskeiset arkkitehtuuripiirteet

Inception-moduuli

Inception-moduuli on InceptionNetin ydinosa, joka on suunniteltu tehokkaasti havaitsemaan piirteitä useilla eri mittakaavoilla. Yhden konvoluution sijaan moduuli käsittelee syötteen rinnakkain useilla suodinkoolla (1×1, 3×3, 5×5). Tämä mahdollistaa sekä pienten yksityiskohtien että suurten kuvioiden tunnistamisen kuvasta.

Laskennallisen tehon vähentämiseksi käytetään 1×1 convolutions ennen suurempia suodattimia. Näiden avulla vähennetään syötekanavien määrää, mikä tekee verkosta tehokkaamman. Lisäksi moduulin maksimipoolauskerrokset auttavat säilyttämään olennaiset piirteet ja hallitsemaan ulottuvuuksia.

Esimerkki

Tarkastellaan esimerkkiä, jossa ulottuvuuksien pienentäminen vähentää laskennallista kuormitusta. Oletetaan, että meidän täytyy konvoloida 28 × 28 × 192 input feature maps käyttäen 5 × 5 × 32 filters. Tämä operaatio vaatii noin 120,42 miljoonaa laskutoimitusta.

Huomautus

Number of operations = (2828192) * (5532) = 120,422,400 operations

Suoritetaan laskelmat uudelleen, mutta tällä kertaa lisätään 1×1 convolutional layer ennen kuin sovelletaan 5×5 convolution samoihin syötekarttoihin.

Huomio

Number of operations for 1x1 convolution = (2828192) * (1116) = 2.408.448 operations

Number of operations for 5x5 convolution = (282816) * (5532) = 10.035.200 operations

Total number of operations 2.408.448 + 10.035.200 = 12.443.648 operations

Jokainen näistä CNN-arkkitehtuureista on ollut keskeisessä roolissa tietokonenäön kehityksessä, vaikuttaen sovelluksiin kuten terveydenhuolto, autonomiset järjestelmät, turvallisuus ja reaaliaikainen kuvankäsittely. LeNetin perustavanlaatuisista periaatteista InceptionNetin moniskaalaiseen piirre-ekstraktioon, nämä mallit ovat jatkuvasti vieneet syväoppimisen rajoja eteenpäin, luoden pohjan entistä kehittyneemmille arkkitehtuureille tulevaisuudessa.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 17

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 17

Yleiskatsaus Suosittuihin CNN-malleihin

LeNet: CNN-verkkojen perusta

Keskeiset arkkitehtuuripiirteet

AlexNet: Syväoppimisen läpimurto

Keskeiset arkkitehtuurin ominaisuudet

VGGNet: Syvemmät verkot yhtenäisillä suodattimilla

Keskeiset arkkitehtuuripiirteet

ResNet: Syvyyden ongelman ratkaisu

Keskeiset arkkitehtuuripiirteet

InceptionNet: Monitasoisten piirteiden erottelu

Keskeisiä optimointeja ovat:

Keskeiset arkkitehtuuripiirteet

Inception-moduuli

Esimerkki

1. Mikä oli ResNetin ensisijainen innovaatio, joka mahdollisti erittäin syvien verkkojen kouluttamisen?

2. Miten InceptionNet parantaa laskennallista tehokkuutta verrattuna perinteisiin CNN-malleihin?

3. Mikä CNN-arkkitehtuuri esitteli ensimmäisenä käsitteen käyttää pieniä 3×3 konvoluutiosuodattimia koko verkossa?