Contenu du cours
Principes Fondamentaux de la Vision par Ordinateur
Principes Fondamentaux de la Vision par Ordinateur
Aperçu des Modèles CNN Populaires
Les réseaux de neurones convolutifs (CNN) ont considérablement évolué, avec diverses architectures améliorant la précision, l'efficacité et l'évolutivité. Ce chapitre présente cinq modèles clés de CNN qui ont façonné l'apprentissage profond : LeNet, AlexNet, VGGNet, ResNet et InceptionNet.
LeNet : La fondation des CNN
L'une des premières architectures de réseaux de neurones convolutifs, proposée par Yann LeCun en 1998 pour la reconnaissance de chiffres manuscrits. Elle a posé les bases des CNN modernes en introduisant des composants essentiels tels que les convolutions, le pooling et les couches entièrement connectées. Vous pouvez en apprendre davantage sur le modèle dans la documentation.
Caractéristiques architecturales clés
AlexNet : Avancée majeure en apprentissage profond
Architecture CNN emblématique ayant remporté la compétition ImageNet en 2012, AlexNet a démontré que les réseaux convolutifs profonds pouvaient surpasser de manière significative les méthodes d'apprentissage automatique traditionnelles pour la classification d'images à grande échelle. Ce modèle a introduit des innovations devenues des standards dans l'apprentissage profond moderne. Plus d'informations sur le modèle dans la documentation.
Caractéristiques architecturales clés
VGGNet : Réseaux plus profonds avec filtres uniformes
Développé par le Visual Geometry Group d'Oxford, VGGNet met l'accent sur la profondeur et la simplicité en utilisant des filtres convolutifs uniformes de 3×3. Ce modèle a démontré que l'empilement de petits filtres dans des réseaux profonds pouvait améliorer significativement les performances, donnant naissance à des variantes largement utilisées telles que VGG-16 et VGG-19. Plus d'informations sur le modèle dans la documentation.
Principales caractéristiques de l'architecture
ResNet : Résolution du problème de profondeur
ResNet (Réseaux Résiduels), introduit par Microsoft en 2015, a résolu le problème du gradient qui disparaît, un phénomène qui survient lors de l'entraînement de réseaux très profonds. Les réseaux profonds traditionnels rencontrent des difficultés en termes d'efficacité d'apprentissage et de dégradation des performances, mais ResNet a surmonté ce problème grâce aux connexions de saut (apprentissage résiduel). Ces raccourcis permettent à l'information de contourner certaines couches, garantissant ainsi une propagation efficace des gradients. Les architectures ResNet, telles que ResNet-50 et ResNet-101, ont permis l'entraînement de réseaux comportant des centaines de couches, améliorant significativement la précision de la classification d'images. Vous pouvez en savoir plus sur le modèle dans la documentation.
Principales caractéristiques de l'architecture
InceptionNet : Extraction de caractéristiques multi-échelle
InceptionNet (également appelé GoogLeNet) s'appuie sur le module inception pour créer une architecture profonde mais efficace. Au lieu d'empiler les couches de manière séquentielle, InceptionNet utilise des chemins parallèles pour extraire des caractéristiques à différents niveaux. Vous pouvez en apprendre davantage sur le modèle dans la documentation.
Les principales optimisations incluent :
Convolutions factorisées pour réduire le coût computationnel ;
Classifieurs auxiliaires dans les couches intermédiaires pour améliorer la stabilité de l'entraînement ;
Global average pooling au lieu de couches entièrement connectées, réduisant le nombre de paramètres tout en maintenant les performances.
Cette structure permet à InceptionNet d'être plus profond que les CNN précédents comme VGG, sans augmenter drastiquement les besoins en calcul.
Principales caractéristiques de l'architecture
Module Inception
Le module Inception est le composant central d'InceptionNet, conçu pour capturer efficacement des caractéristiques à plusieurs échelles. Au lieu d'appliquer une seule opération de convolution, le module traite l'entrée avec plusieurs tailles de filtres (1×1, 3×3, 5×5
) en parallèle. Cela permet au réseau de reconnaître à la fois les détails fins et les grands motifs dans une image.
Pour réduire le coût computationnel, des 1×1 convolutions
sont utilisées avant d'appliquer des filtres plus grands. Celles-ci réduisent le nombre de canaux d'entrée, rendant le réseau plus efficace. De plus, les couches de max pooling au sein du module permettent de conserver les caractéristiques essentielles tout en contrôlant la dimensionnalité.
Exemple
Considérons un exemple pour illustrer comment la réduction des dimensions diminue la charge de calcul. Supposons que nous devions convoluer des 28 × 28 × 192 input feature maps
avec des 5 × 5 × 32 filters
. Cette opération nécessiterait environ 120,42 millions de calculs.
Refaisons les calculs, mais cette fois, insérons une 1×1 convolutional layer
avant d'appliquer la 5×5 convolution
aux mêmes cartes de caractéristiques d'entrée.
Chacune de ces architectures CNN a joué un rôle déterminant dans l'avancement de la vision par ordinateur, influençant des applications dans les domaines de la santé, des systèmes autonomes, de la sécurité et du traitement d'image en temps réel. Des principes fondamentaux de LeNet à l'extraction multi-échelle de caractéristiques d'InceptionNet, ces modèles ont continuellement repoussé les limites de l'apprentissage profond, ouvrant la voie à des architectures encore plus avancées à l'avenir.
1. Quelle a été l'innovation principale introduite par ResNet permettant d'entraîner des réseaux extrêmement profonds ?
2. Comment InceptionNet améliore-t-il l'efficacité computationnelle par rapport aux CNN traditionnels ?
3. Quelle architecture CNN a introduit pour la première fois l'utilisation de petits filtres de convolution 3×3 dans tout le réseau ?
Merci pour vos commentaires !