Couches de Convolution
Comprendre les couches de convolution
Les couches de convolution constituent le cœur des réseaux de neurones convolutifs (CNN). Elles appliquent une convolution, où une petite matrice appelée filtre (ou noyau) glisse sur une image pour détecter les bords, textures et formes. Cela permet aux CNN de traiter les images plus efficacement que les réseaux traditionnels.
Au lieu d'analyser une image entière en une seule fois, les CNN la divisent en sections plus petites, détectant des caractéristiques à différents niveaux. Les premières couches reconnaissent des motifs simples comme les bords, tandis que les couches plus profondes détectent des structures complexes.
Fonctionnement de la convolution
La convolution implique le déplacement d’un filtre (noyau) sur une image, selon les étapes suivantes :
- Appliquer le noyau en haut à gauche de l’image.
- Effectuer une multiplication élément par élément entre le noyau et les valeurs des pixels.
- Additionner les produits pour générer un pixel de sortie.
- Déplacer le noyau selon le pas (stride) et répéter.
- Générer une carte de caractéristiques mettant en évidence les motifs détectés.

Plusieurs filtres permettent aux CNN de capturer différentes caractéristiques, telles que les bords verticaux, les courbes et les textures.
Filtres (noyaux) :
Les filtres jouent un rôle essentiel dans l'extraction de motifs significatifs à partir des images. Différents types de filtres sont spécialisés dans l'identification de diverses caractéristiques :
-
Filtres de détection de bords : identifient les contours des objets en détectant les changements brusques d'intensité (par exemple, filtres de Sobel, Prewitt et Laplacien) ;
-
Filtres de texture : capturent les motifs répétitifs tels que les vagues ou les grilles (par exemple, filtres de Gabor) ;
-
Filtres de renforcement : améliorent les détails de l'image en amplifiant les composantes à haute fréquence ;
-
Filtres de flou : réduisent le bruit et lissent les images (par exemple, filtre de flou gaussien) ;
-
Filtres d'embossage : mettent en valeur les bords et ajoutent un effet 3D en accentuant la profondeur.

Chaque filtre est entraîné à détecter des motifs spécifiques et contribue à la construction de représentations hiérarchiques des caractéristiques dans les CNN profonds.
Les couches de convolution réutilisent le même filtre sur toute l'image, ce qui réduit le nombre de paramètres et rend les CNN efficaces. Cependant, des couches localement connectées spécialisées utilisent des filtres différents pour différentes régions lorsque cela est nécessaire.
En empilant les couches de convolution, les CNN extraient des motifs détaillés, ce qui les rend puissants pour la classification d'images, la détection d'objets et les tâches de vision.
Hyperparamètres :
- Stride : contrôle la distance parcourue par le filtre à chaque étape ;
- Padding : ajoute des pixels pour contrôler la taille de la sortie (le même padding préserve la taille, le padding valide la réduit) ;
- Nombre de filtres (profondeur) : plus de filtres améliorent la détection des caractéristiques mais augmentent le calcul.
Exemple : Pour une image en niveaux de gris 24×24
utilisant un noyau 3×3
avec 64 filters
, la taille de sortie est 22×22×64
, calculée comme :
Où :
- W : largeur de l'image d'entrée = 24 ;
- H : hauteur de l'image d'entrée = 24 ;
- F : taille du filtre (noyau) = 3 (en supposant un noyau carré 3×3) ;
- D : nombre de filtres (profondeur de la sortie) = 64.
Avant le prochain chapitre
Bien que les couches de convolution puissent réduire la taille de la sortie, leur objectif principal est l'extraction de caractéristiques, et non la réduction de la dimensionnalité. Les couches de pooling, en revanche, réduisent explicitement la dimensionnalité tout en conservant les informations importantes, assurant ainsi l'efficacité dans les couches plus profondes.
1. Quel est le rôle principal d'une couche de convolution dans un CNN ?
2. Quel hyperparamètre détermine de combien un filtre se déplace lors de la convolution ?
3. Quel est le but d'appliquer plusieurs filtres dans une couche de convolution ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain how pooling layers work in CNNs?
What is the difference between convolution and pooling layers?
Can you give examples of how different filters affect an image?
Awesome!
Completion rate improved to 3.45
Couches de Convolution
Glissez pour afficher le menu
Comprendre les couches de convolution
Les couches de convolution constituent le cœur des réseaux de neurones convolutifs (CNN). Elles appliquent une convolution, où une petite matrice appelée filtre (ou noyau) glisse sur une image pour détecter les bords, textures et formes. Cela permet aux CNN de traiter les images plus efficacement que les réseaux traditionnels.
Au lieu d'analyser une image entière en une seule fois, les CNN la divisent en sections plus petites, détectant des caractéristiques à différents niveaux. Les premières couches reconnaissent des motifs simples comme les bords, tandis que les couches plus profondes détectent des structures complexes.
Fonctionnement de la convolution
La convolution implique le déplacement d’un filtre (noyau) sur une image, selon les étapes suivantes :
- Appliquer le noyau en haut à gauche de l’image.
- Effectuer une multiplication élément par élément entre le noyau et les valeurs des pixels.
- Additionner les produits pour générer un pixel de sortie.
- Déplacer le noyau selon le pas (stride) et répéter.
- Générer une carte de caractéristiques mettant en évidence les motifs détectés.

Plusieurs filtres permettent aux CNN de capturer différentes caractéristiques, telles que les bords verticaux, les courbes et les textures.
Filtres (noyaux) :
Les filtres jouent un rôle essentiel dans l'extraction de motifs significatifs à partir des images. Différents types de filtres sont spécialisés dans l'identification de diverses caractéristiques :
-
Filtres de détection de bords : identifient les contours des objets en détectant les changements brusques d'intensité (par exemple, filtres de Sobel, Prewitt et Laplacien) ;
-
Filtres de texture : capturent les motifs répétitifs tels que les vagues ou les grilles (par exemple, filtres de Gabor) ;
-
Filtres de renforcement : améliorent les détails de l'image en amplifiant les composantes à haute fréquence ;
-
Filtres de flou : réduisent le bruit et lissent les images (par exemple, filtre de flou gaussien) ;
-
Filtres d'embossage : mettent en valeur les bords et ajoutent un effet 3D en accentuant la profondeur.

Chaque filtre est entraîné à détecter des motifs spécifiques et contribue à la construction de représentations hiérarchiques des caractéristiques dans les CNN profonds.
Les couches de convolution réutilisent le même filtre sur toute l'image, ce qui réduit le nombre de paramètres et rend les CNN efficaces. Cependant, des couches localement connectées spécialisées utilisent des filtres différents pour différentes régions lorsque cela est nécessaire.
En empilant les couches de convolution, les CNN extraient des motifs détaillés, ce qui les rend puissants pour la classification d'images, la détection d'objets et les tâches de vision.
Hyperparamètres :
- Stride : contrôle la distance parcourue par le filtre à chaque étape ;
- Padding : ajoute des pixels pour contrôler la taille de la sortie (le même padding préserve la taille, le padding valide la réduit) ;
- Nombre de filtres (profondeur) : plus de filtres améliorent la détection des caractéristiques mais augmentent le calcul.
Exemple : Pour une image en niveaux de gris 24×24
utilisant un noyau 3×3
avec 64 filters
, la taille de sortie est 22×22×64
, calculée comme :
Où :
- W : largeur de l'image d'entrée = 24 ;
- H : hauteur de l'image d'entrée = 24 ;
- F : taille du filtre (noyau) = 3 (en supposant un noyau carré 3×3) ;
- D : nombre de filtres (profondeur de la sortie) = 64.
Avant le prochain chapitre
Bien que les couches de convolution puissent réduire la taille de la sortie, leur objectif principal est l'extraction de caractéristiques, et non la réduction de la dimensionnalité. Les couches de pooling, en revanche, réduisent explicitement la dimensionnalité tout en conservant les informations importantes, assurant ainsi l'efficacité dans les couches plus profondes.
1. Quel est le rôle principal d'une couche de convolution dans un CNN ?
2. Quel hyperparamètre détermine de combien un filtre se déplace lors de la convolution ?
3. Quel est le but d'appliquer plusieurs filtres dans une couche de convolution ?
Merci pour vos commentaires !