Kursusindhold
Computer Vision Grundlæggende
Computer Vision Grundlæggende
Oversigt over Populære CNN-Modeller
Convolutionelle neurale netværk (CNN'er) har udviklet sig markant, hvor forskellige arkitekturer har forbedret nøjagtighed, effektivitet og skalerbarhed. Dette kapitel undersøger fem centrale CNN-modeller, der har formet deep learning: LeNet, AlexNet, VGGNet, ResNet og InceptionNet.
LeNet: Fundamentet for CNN'er
En af de første convolutionelle neurale netværksarkitekturer, foreslået af Yann LeCun i 1998 til genkendelse af håndskrevne cifre. Den lagde grundlaget for moderne CNN'er ved at introducere nøglekomponenter som convolutioner, pooling og fuldt forbundne lag. Du kan lære mere om modellen i dokumentationen.
Centrale arkitekturfunktioner
AlexNet: Gennembrud i Deep Learning
Et banebrydende CNN-arkitektur, der vandt ImageNet-konkurrencen i 2012. AlexNet demonstrerede, at dybe konvolutionsnetværk markant kunne overgå traditionelle maskinlæringsmetoder til billedklassifikation i stor skala. Modellen introducerede innovationer, der blev standard i moderne deep learning. Læs mere om modellen i dokumentationen.
Centrale arkitekturfunktioner
VGGNet: Dybere netværk med ensartede filtre
Udviklet af Visual Geometry Group ved Oxford, VGGNet lagde vægt på dybde og enkelhed ved at anvende ensartede 3×3 konvolutionsfiltre. Modellen viste, at stabling af små filtre i dybe netværk markant kunne forbedre ydeevnen, hvilket førte til udbredte varianter som VGG-16 og VGG-19. Læs mere om modellen i dokumentationen.
Nøglefunktioner i arkitekturen
ResNet: Løsning på dybdeproblemet
ResNet (Residual Networks), introduceret af Microsoft i 2015, løste problemet med forsvindende gradient, som opstår under træning af meget dybe netværk. Traditionelle dybe netværk har udfordringer med træningseffektivitet og præstationsforringelse, men ResNet overvandt dette problem med skip connections (residual læring). Disse genveje tillader information at omgå visse lag, hvilket sikrer, at gradienter fortsat kan propagere effektivt. ResNet-arkitekturer, såsom ResNet-50 og ResNet-101, muliggjorde træning af netværk med hundredvis af lag og forbedrede billedklassifikationsnøjagtigheden markant. Du kan læse mere om modellen i dokumentationen.
Nøglefunktioner i arkitekturen
InceptionNet: Multiskala-funktionsekstraktion
InceptionNet (også kendt som GoogLeNet) bygger videre på inception-modulet for at skabe en dyb, men effektiv arkitektur. I stedet for at stable lag sekventielt, anvender InceptionNet parallelle veje til at udtrække funktioner på forskellige niveauer. Du kan læse mere om modellen i dokumentationen.
Centrale optimeringer omfatter:
Faktoriserede konvolutioner for at reducere beregningsomkostninger;
Hjælpeklassifikatorer i mellemliggende lag for at forbedre træningsstabilitet;
Global gennemsnits-pooling i stedet for fuldt forbundne lag, hvilket reducerer antallet af parametre og bevarer ydeevnen.
Denne struktur gør det muligt for InceptionNet at være dybere end tidligere CNN'er som VGG, uden markant øgede beregningskrav.
Centrale arkitekturfunktioner
Inception-modul
Inception-modulet er kernekomponenten i InceptionNet, designet til effektivt at opfange funktioner på flere skalaer. I stedet for at anvende en enkelt konvolutionsoperation, behandler modulet inputtet med flere filterstørrelser (1×1, 3×3, 5×5
) parallelt. Dette gør det muligt for netværket at genkende både fine detaljer og store mønstre i et billede.
For at reducere beregningsomkostninger anvendes 1×1 convolutions
før større filtre. Disse reducerer antallet af inputkanaler, hvilket gør netværket mere effektivt. Derudover hjælper max pooling-lag i modulet med at bevare væsentlige funktioner og kontrollere dimensionaliteten.
Eksempel
Overvej et eksempel for at se, hvordan reduktion af dimensioner mindsker den beregningsmæssige belastning. Antag, at vi skal konvolvere 28 × 28 × 192 input feature maps
med 5 × 5 × 32 filters
. Denne operation vil kræve cirka 120,42 millioner beregninger.
Lad os udføre beregningerne igen, men denne gang indsætte et 1×1 convolutional layer
før vi anvender 5×5 convolution
på de samme input feature maps.
Hver af disse CNN-arkitekturer har spillet en afgørende rolle i udviklingen af computer vision og har haft indflydelse på anvendelser inden for sundhedspleje, autonome systemer, sikkerhed og real-time billedbehandling. Fra LeNet's grundlæggende principper til InceptionNet's multi-skala feature-ekstraktion har disse modeller løbende udvidet grænserne for deep learning og banet vejen for endnu mere avancerede arkitekturer i fremtiden.
1. Hvad var den primære innovation introduceret af ResNet, som gjorde det muligt at træne ekstremt dybe netværk?
2. Hvordan forbedrer InceptionNet den beregningsmæssige effektivitet sammenlignet med traditionelle CNN'er?
3. Hvilken CNN-arkitektur introducerede først konceptet med at bruge små 3×3 konvolutionsfiltre gennem hele netværket?
Tak for dine kommentarer!