Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Oversikt over Populære CNN-modeller | Konvolusjonelle Nevrale Nettverk
Grunnleggende Datamaskinsyn
course content

Kursinnhold

Grunnleggende Datamaskinsyn

Grunnleggende Datamaskinsyn

1. Introduksjon til Datamaskinsyn
2. Bildebehandling med OpenCV
3. Konvolusjonelle Nevrale Nettverk
4. Objektdeteksjon
5. Oversikt Over Avanserte Emner

book
Oversikt over Populære CNN-modeller

Konvolusjonelle nevrale nettverk (CNN-er) har utviklet seg betydelig, med ulike arkitekturer som forbedrer nøyaktighet, effektivitet og skalerbarhet. Dette kapittelet utforsker fem sentrale CNN-modeller som har formet dyp læring: LeNet, AlexNet, VGGNet, ResNet og InceptionNet.

LeNet: Grunnlaget for CNN-er

En av de første konvolusjonelle nevrale nettverksarkitekturene, foreslått av Yann LeCun i 1998 for håndskrevet siffergjenkjenning. Den la grunnlaget for moderne CNN-er ved å introdusere viktige komponenter som konvolusjoner, pooling og fullt tilkoblede lag. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

AlexNet: Gjennombrudd innen dyp læring

Et banebrytende CNN-arkitektur som vant ImageNet-konkurransen i 2012, AlexNet viste at dype konvolusjonsnettverk kunne overgå tradisjonelle maskinlæringsmetoder betydelig for bildeklassifisering i stor skala. Den introduserte innovasjoner som har blitt standard i moderne dyp læring. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

VGGNet: Dypere nettverk med ensartede filtre

Utviklet av Visual Geometry Group ved Oxford, la VGGNet vekt på dybde og enkelhet ved å bruke ensartede 3×3 konvolusjonsfiltre. Den viste at stabling av små filtre i dype nettverk kunne forbedre ytelsen betydelig, noe som førte til mye brukte varianter som VGG-16 og VGG-19. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

ResNet: Løser dybdeproblemet

ResNet (Residual Networks), introdusert av Microsoft i 2015, adresserte problemet med forsvinnende gradient, som oppstår ved trening av svært dype nettverk. Tradisjonelle dype nettverk har utfordringer med treningseffektivitet og ytelsesforringelse, men ResNet løste dette med skip connections (residuallæring). Disse snarveiene lar informasjon passere forbi enkelte lag, noe som sikrer at gradientene fortsetter å forplante seg effektivt. ResNet-arkitekturer, som ResNet-50 og ResNet-101, muliggjorde trening av nettverk med hundrevis av lag, og forbedret nøyaktigheten for bildeklassifisering betydelig. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

InceptionNet: Fler-skala funksjonsekstraksjon

InceptionNet (også kjent som GoogLeNet) bygger på inception-modulen for å skape en dyp, men effektiv arkitektur. I stedet for å stable lag sekvensielt, bruker InceptionNet parallelle baner for å trekke ut funksjoner på ulike nivåer. Du kan lære mer om modellen i dokumentasjonen.

Viktige optimaliseringer inkluderer:

  • Faktorerte konvolusjoner for å redusere beregningskostnader;

  • Hjelpeklassifisatorer i mellomliggende lag for å forbedre treningsstabilitet;

  • Global gjennomsnittspooling i stedet for fullt tilkoblede lag, noe som reduserer antall parametere samtidig som ytelsen opprettholdes.

Denne strukturen gjør det mulig for InceptionNet å være dypere enn tidligere CNN-er som VGG, uten å øke beregningskravene drastisk.

Viktige arkitekturegenskaper

Inception-modul

Inception-modulen er kjernen i InceptionNet, utformet for effektivt å fange opp funksjoner på flere skalaer. I stedet for å bruke én enkelt konvolusjonsoperasjon, behandler modulen input med flere filterstørrelser (1×1, 3×3, 5×5) parallelt. Dette gjør det mulig for nettverket å gjenkjenne både fine detaljer og store mønstre i et bilde.

For å redusere beregningskostnader brukes 1×1 convolutions før større filtre påføres. Disse reduserer antall inngangskanaler, noe som gjør nettverket mer effektivt. I tillegg hjelper maks pooling-lag i modulen med å bevare essensielle funksjoner samtidig som dimensjonaliteten kontrolleres.

Eksempel

Vurder et eksempel for å se hvordan reduksjon av dimensjoner minsker den beregningsmessige belastningen. Anta at vi må konvolvere 28 × 28 × 192 input feature maps med 5 × 5 × 32 filters. Denne operasjonen vil kreve omtrent 120,42 millioner beregninger.

La oss utføre beregningene på nytt, men denne gangen setter vi et 1×1 convolutional layer før vi anvender 5×5 convolution på de samme input feature maps.

Hver av disse CNN-arkitekturene har spilt en avgjørende rolle i utviklingen av datamaskinsyn, og påvirket bruksområder innen helsevesen, autonome systemer, sikkerhet og sanntids bildebehandling. Fra LeNet sine grunnleggende prinsipper til InceptionNet sin multi-skala funksjonsekstraksjon, har disse modellene kontinuerlig flyttet grensene for dyp læring og banet vei for enda mer avanserte arkitekturer i fremtiden.

1. Hva var den primære innovasjonen introdusert av ResNet som gjorde det mulig å trene svært dype nettverk?

2. Hvordan forbedrer InceptionNet beregningseffektiviteten sammenlignet med tradisjonelle CNN-er?

3. Hvilken CNN-arkitektur introduserte først konseptet med å bruke små 3×3-konvolusjonsfiltre gjennom hele nettverket?

question mark

Hva var den primære innovasjonen introdusert av ResNet som gjorde det mulig å trene svært dype nettverk?

Select the correct answer

question mark

Hvordan forbedrer InceptionNet beregningseffektiviteten sammenlignet med tradisjonelle CNN-er?

Select the correct answer

question mark

Hvilken CNN-arkitektur introduserte først konseptet med å bruke små 3×3-konvolusjonsfiltre gjennom hele nettverket?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

expand
ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Grunnleggende Datamaskinsyn

Grunnleggende Datamaskinsyn

1. Introduksjon til Datamaskinsyn
2. Bildebehandling med OpenCV
3. Konvolusjonelle Nevrale Nettverk
4. Objektdeteksjon
5. Oversikt Over Avanserte Emner

book
Oversikt over Populære CNN-modeller

Konvolusjonelle nevrale nettverk (CNN-er) har utviklet seg betydelig, med ulike arkitekturer som forbedrer nøyaktighet, effektivitet og skalerbarhet. Dette kapittelet utforsker fem sentrale CNN-modeller som har formet dyp læring: LeNet, AlexNet, VGGNet, ResNet og InceptionNet.

LeNet: Grunnlaget for CNN-er

En av de første konvolusjonelle nevrale nettverksarkitekturene, foreslått av Yann LeCun i 1998 for håndskrevet siffergjenkjenning. Den la grunnlaget for moderne CNN-er ved å introdusere viktige komponenter som konvolusjoner, pooling og fullt tilkoblede lag. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

AlexNet: Gjennombrudd innen dyp læring

Et banebrytende CNN-arkitektur som vant ImageNet-konkurransen i 2012, AlexNet viste at dype konvolusjonsnettverk kunne overgå tradisjonelle maskinlæringsmetoder betydelig for bildeklassifisering i stor skala. Den introduserte innovasjoner som har blitt standard i moderne dyp læring. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

VGGNet: Dypere nettverk med ensartede filtre

Utviklet av Visual Geometry Group ved Oxford, la VGGNet vekt på dybde og enkelhet ved å bruke ensartede 3×3 konvolusjonsfiltre. Den viste at stabling av små filtre i dype nettverk kunne forbedre ytelsen betydelig, noe som førte til mye brukte varianter som VGG-16 og VGG-19. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

ResNet: Løser dybdeproblemet

ResNet (Residual Networks), introdusert av Microsoft i 2015, adresserte problemet med forsvinnende gradient, som oppstår ved trening av svært dype nettverk. Tradisjonelle dype nettverk har utfordringer med treningseffektivitet og ytelsesforringelse, men ResNet løste dette med skip connections (residuallæring). Disse snarveiene lar informasjon passere forbi enkelte lag, noe som sikrer at gradientene fortsetter å forplante seg effektivt. ResNet-arkitekturer, som ResNet-50 og ResNet-101, muliggjorde trening av nettverk med hundrevis av lag, og forbedret nøyaktigheten for bildeklassifisering betydelig. Du kan lære mer om modellen i dokumentasjonen.

Viktige arkitekturelle egenskaper

InceptionNet: Fler-skala funksjonsekstraksjon

InceptionNet (også kjent som GoogLeNet) bygger på inception-modulen for å skape en dyp, men effektiv arkitektur. I stedet for å stable lag sekvensielt, bruker InceptionNet parallelle baner for å trekke ut funksjoner på ulike nivåer. Du kan lære mer om modellen i dokumentasjonen.

Viktige optimaliseringer inkluderer:

  • Faktorerte konvolusjoner for å redusere beregningskostnader;

  • Hjelpeklassifisatorer i mellomliggende lag for å forbedre treningsstabilitet;

  • Global gjennomsnittspooling i stedet for fullt tilkoblede lag, noe som reduserer antall parametere samtidig som ytelsen opprettholdes.

Denne strukturen gjør det mulig for InceptionNet å være dypere enn tidligere CNN-er som VGG, uten å øke beregningskravene drastisk.

Viktige arkitekturegenskaper

Inception-modul

Inception-modulen er kjernen i InceptionNet, utformet for effektivt å fange opp funksjoner på flere skalaer. I stedet for å bruke én enkelt konvolusjonsoperasjon, behandler modulen input med flere filterstørrelser (1×1, 3×3, 5×5) parallelt. Dette gjør det mulig for nettverket å gjenkjenne både fine detaljer og store mønstre i et bilde.

For å redusere beregningskostnader brukes 1×1 convolutions før større filtre påføres. Disse reduserer antall inngangskanaler, noe som gjør nettverket mer effektivt. I tillegg hjelper maks pooling-lag i modulen med å bevare essensielle funksjoner samtidig som dimensjonaliteten kontrolleres.

Eksempel

Vurder et eksempel for å se hvordan reduksjon av dimensjoner minsker den beregningsmessige belastningen. Anta at vi må konvolvere 28 × 28 × 192 input feature maps med 5 × 5 × 32 filters. Denne operasjonen vil kreve omtrent 120,42 millioner beregninger.

La oss utføre beregningene på nytt, men denne gangen setter vi et 1×1 convolutional layer før vi anvender 5×5 convolution på de samme input feature maps.

Hver av disse CNN-arkitekturene har spilt en avgjørende rolle i utviklingen av datamaskinsyn, og påvirket bruksområder innen helsevesen, autonome systemer, sikkerhet og sanntids bildebehandling. Fra LeNet sine grunnleggende prinsipper til InceptionNet sin multi-skala funksjonsekstraksjon, har disse modellene kontinuerlig flyttet grensene for dyp læring og banet vei for enda mer avanserte arkitekturer i fremtiden.

1. Hva var den primære innovasjonen introdusert av ResNet som gjorde det mulig å trene svært dype nettverk?

2. Hvordan forbedrer InceptionNet beregningseffektiviteten sammenlignet med tradisjonelle CNN-er?

3. Hvilken CNN-arkitektur introduserte først konseptet med å bruke små 3×3-konvolusjonsfiltre gjennom hele nettverket?

question mark

Hva var den primære innovasjonen introdusert av ResNet som gjorde det mulig å trene svært dype nettverk?

Select the correct answer

question mark

Hvordan forbedrer InceptionNet beregningseffektiviteten sammenlignet med tradisjonelle CNN-er?

Select the correct answer

question mark

Hvilken CNN-arkitektur introduserte først konseptet med å bruke små 3×3-konvolusjonsfiltre gjennom hele nettverket?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6
Vi beklager at noe gikk galt. Hva skjedde?
some-alt