Kursinnhold
Grunnleggende Datamaskinsyn
Grunnleggende Datamaskinsyn
Oversikt over Populære CNN-modeller
Konvolusjonelle nevrale nettverk (CNN-er) har utviklet seg betydelig, med ulike arkitekturer som forbedrer nøyaktighet, effektivitet og skalerbarhet. Dette kapittelet utforsker fem sentrale CNN-modeller som har formet dyp læring: LeNet, AlexNet, VGGNet, ResNet og InceptionNet.
LeNet: Grunnlaget for CNN-er
En av de første konvolusjonelle nevrale nettverksarkitekturene, foreslått av Yann LeCun i 1998 for håndskrevet siffergjenkjenning. Den la grunnlaget for moderne CNN-er ved å introdusere viktige komponenter som konvolusjoner, pooling og fullt tilkoblede lag. Du kan lære mer om modellen i dokumentasjonen.
Viktige arkitekturelle egenskaper
AlexNet: Gjennombrudd innen dyp læring
Et banebrytende CNN-arkitektur som vant ImageNet-konkurransen i 2012, AlexNet viste at dype konvolusjonsnettverk kunne overgå tradisjonelle maskinlæringsmetoder betydelig for bildeklassifisering i stor skala. Den introduserte innovasjoner som har blitt standard i moderne dyp læring. Du kan lære mer om modellen i dokumentasjonen.
Viktige arkitekturelle egenskaper
VGGNet: Dypere nettverk med ensartede filtre
Utviklet av Visual Geometry Group ved Oxford, la VGGNet vekt på dybde og enkelhet ved å bruke ensartede 3×3 konvolusjonsfiltre. Den viste at stabling av små filtre i dype nettverk kunne forbedre ytelsen betydelig, noe som førte til mye brukte varianter som VGG-16 og VGG-19. Du kan lære mer om modellen i dokumentasjonen.
Viktige arkitekturelle egenskaper
ResNet: Løser dybdeproblemet
ResNet (Residual Networks), introdusert av Microsoft i 2015, adresserte problemet med forsvinnende gradient, som oppstår ved trening av svært dype nettverk. Tradisjonelle dype nettverk har utfordringer med treningseffektivitet og ytelsesforringelse, men ResNet løste dette med skip connections (residuallæring). Disse snarveiene lar informasjon passere forbi enkelte lag, noe som sikrer at gradientene fortsetter å forplante seg effektivt. ResNet-arkitekturer, som ResNet-50 og ResNet-101, muliggjorde trening av nettverk med hundrevis av lag, og forbedret nøyaktigheten for bildeklassifisering betydelig. Du kan lære mer om modellen i dokumentasjonen.
Viktige arkitekturelle egenskaper
InceptionNet: Fler-skala funksjonsekstraksjon
InceptionNet (også kjent som GoogLeNet) bygger på inception-modulen for å skape en dyp, men effektiv arkitektur. I stedet for å stable lag sekvensielt, bruker InceptionNet parallelle baner for å trekke ut funksjoner på ulike nivåer. Du kan lære mer om modellen i dokumentasjonen.
Viktige optimaliseringer inkluderer:
Faktorerte konvolusjoner for å redusere beregningskostnader;
Hjelpeklassifisatorer i mellomliggende lag for å forbedre treningsstabilitet;
Global gjennomsnittspooling i stedet for fullt tilkoblede lag, noe som reduserer antall parametere samtidig som ytelsen opprettholdes.
Denne strukturen gjør det mulig for InceptionNet å være dypere enn tidligere CNN-er som VGG, uten å øke beregningskravene drastisk.
Viktige arkitekturegenskaper
Inception-modul
Inception-modulen er kjernen i InceptionNet, utformet for effektivt å fange opp funksjoner på flere skalaer. I stedet for å bruke én enkelt konvolusjonsoperasjon, behandler modulen input med flere filterstørrelser (1×1, 3×3, 5×5
) parallelt. Dette gjør det mulig for nettverket å gjenkjenne både fine detaljer og store mønstre i et bilde.
For å redusere beregningskostnader brukes 1×1 convolutions
før større filtre påføres. Disse reduserer antall inngangskanaler, noe som gjør nettverket mer effektivt. I tillegg hjelper maks pooling-lag i modulen med å bevare essensielle funksjoner samtidig som dimensjonaliteten kontrolleres.
Eksempel
Vurder et eksempel for å se hvordan reduksjon av dimensjoner minsker den beregningsmessige belastningen. Anta at vi må konvolvere 28 × 28 × 192 input feature maps
med 5 × 5 × 32 filters
. Denne operasjonen vil kreve omtrent 120,42 millioner beregninger.
La oss utføre beregningene på nytt, men denne gangen setter vi et 1×1 convolutional layer
før vi anvender 5×5 convolution
på de samme input feature maps.
Hver av disse CNN-arkitekturene har spilt en avgjørende rolle i utviklingen av datamaskinsyn, og påvirket bruksområder innen helsevesen, autonome systemer, sikkerhet og sanntids bildebehandling. Fra LeNet sine grunnleggende prinsipper til InceptionNet sin multi-skala funksjonsekstraksjon, har disse modellene kontinuerlig flyttet grensene for dyp læring og banet vei for enda mer avanserte arkitekturer i fremtiden.
1. Hva var den primære innovasjonen introdusert av ResNet som gjorde det mulig å trene svært dype nettverk?
2. Hvordan forbedrer InceptionNet beregningseffektiviteten sammenlignet med tradisjonelle CNN-er?
3. Hvilken CNN-arkitektur introduserte først konseptet med å bruke små 3×3-konvolusjonsfiltre gjennom hele nettverket?
Takk for tilbakemeldingene dine!