Cursusinhoud
Essentiële Computervisie
Essentiële Computervisie
Overzicht van Populaire CNN-Modellen
Convolutionele neurale netwerken (CNN's) zijn aanzienlijk geëvolueerd, waarbij diverse architecturen de nauwkeurigheid, efficiëntie en schaalbaarheid hebben verbeterd. Dit hoofdstuk behandelt vijf belangrijke CNN-modellen die deep learning hebben gevormd: LeNet, AlexNet, VGGNet, ResNet en InceptionNet.
LeNet: De Basis van CNN's
Een van de eerste convolutionele neurale netwerkarchitecturen, voorgesteld door Yann LeCun in 1998 voor handgeschreven cijferherkenning. Het legde de basis voor moderne CNN's door het introduceren van essentiële componenten zoals convoluties, pooling en volledig verbonden lagen. Meer informatie over het model is te vinden in de documentatie.
Belangrijkste Architectuurkenmerken
AlexNet: Doorbraak in Deep Learning
Een baanbrekende CNN-architectuur die de ImageNet-competitie van 2012 won. AlexNet toonde aan dat diepe convolutionele netwerken traditionele machine learning-methoden aanzienlijk konden overtreffen bij grootschalige beeldclassificatie. Het introduceerde innovaties die standaard zijn geworden in moderne deep learning. Meer informatie over het model is te vinden in de documentatie.
Belangrijkste Architectuurkenmerken
VGGNet: Diepere Netwerken met Uniforme Filters
Ontwikkeld door de Visual Geometry Group aan Oxford, legde VGGNet de nadruk op diepte en eenvoud door gebruik te maken van uniforme 3×3 convolutionele filters. Het toonde aan dat het stapelen van kleine filters in diepe netwerken de prestaties aanzienlijk kon verbeteren, wat leidde tot veelgebruikte varianten zoals VGG-16 en VGG-19. Meer informatie over het model is te vinden in de documentatie.
Belangrijkste Architectuurkenmerken
ResNet: Oplossen van het Diepteprobleem
ResNet (Residual Networks), geïntroduceerd door Microsoft in 2015, pakte het probleem van verdwijnende gradiënten aan, dat optreedt bij het trainen van zeer diepe netwerken. Traditionele diepe netwerken ondervinden problemen met trainingsefficiëntie en prestatievermindering, maar ResNet overwon dit probleem met skip connections (residueel leren). Deze shortcuts maken het mogelijk dat informatie bepaalde lagen overslaat, waardoor gradiënten effectief blijven doorstromen. ResNet-architecturen, zoals ResNet-50 en ResNet-101, maakten het trainen van netwerken met honderden lagen mogelijk, wat de nauwkeurigheid van beeldclassificatie aanzienlijk verbeterde. Meer informatie over het model is te vinden in de documentatie.
Belangrijkste Architectuurkenmerken
InceptionNet: Multi-schaal Feature Extractie
InceptionNet (ook bekend als GoogLeNet) bouwt voort op de inception-module om een diepe maar efficiënte architectuur te creëren. In plaats van lagen sequentieel te stapelen, gebruikt InceptionNet parallelle paden om kenmerken op verschillende niveaus te extraheren. Meer informatie over het model is te vinden in de documentatie.
Belangrijke optimalisaties zijn onder andere:
Gefactoriseerde convoluties om de rekentijd te verlagen;
Hulpclassificatoren in tussenliggende lagen voor verbeterde trainingsstabiliteit;
Globale gemiddelde pooling in plaats van volledig verbonden lagen, waardoor het aantal parameters wordt verminderd met behoud van prestaties.
Deze structuur maakt het mogelijk dat InceptionNet dieper is dan eerdere CNN's zoals VGG, zonder de rekeneisen drastisch te verhogen.
Belangrijkste Architectuurkenmerken
Inception-module
De Inception-module is het kernonderdeel van InceptionNet, ontworpen om efficiënt kenmerken op meerdere schalen vast te leggen. In plaats van één enkele convolutie toe te passen, verwerkt de module de input met meerdere filtergroottes (1×1, 3×3, 5×5
) parallel. Hierdoor kan het netwerk zowel fijne details als grote patronen in een afbeelding herkennen.
Om de rekentijd te beperken, worden 1×1 convolutions
gebruikt vóór het toepassen van grotere filters. Deze verminderen het aantal invoerkanalen, waardoor het netwerk efficiënter wordt. Daarnaast helpen max pooling-lagen binnen de module om essentiële kenmerken te behouden en de dimensionaliteit te beheersen.
Voorbeeld
Beschouw een voorbeeld om te zien hoe dimensiereductie de rekencapaciteit verlaagt. Stel dat we 28 × 28 × 192 input feature maps
moeten convolueren met 5 × 5 × 32 filters
. Deze bewerking vereist ongeveer 120,42 miljoen berekeningen.
Voer de berekeningen opnieuw uit, maar plaats deze keer een 1×1 convolutional layer
vóór het toepassen van de 5×5 convolution
op dezelfde input feature maps.
Elk van deze CNN-architecturen heeft een cruciale rol gespeeld in de vooruitgang van computer vision en heeft toepassingen beïnvloed in gezondheidszorg, autonome systemen, beveiliging en real-time beeldverwerking. Van de fundamentele principes van LeNet tot de multi-schaal feature-extractie van InceptionNet, hebben deze modellen voortdurend de grenzen van deep learning verlegd en de weg vrijgemaakt voor nog geavanceerdere architecturen in de toekomst.
1. Wat was de belangrijkste innovatie die door ResNet werd geïntroduceerd en het mogelijk maakte om extreem diepe netwerken te trainen?
2. Hoe verbetert InceptionNet de computationele efficiëntie in vergelijking met traditionele CNN's?
3. Welke CNN-architectuur introduceerde als eerste het concept van het gebruik van kleine 3×3 convolutiefilters door het hele netwerk?
Bedankt voor je feedback!