Contenu du cours
Principes Fondamentaux de la Vision par Ordinateur
Principes Fondamentaux de la Vision par Ordinateur
Boîtes d'Ancrage
Pourquoi les Anchor Boxes sont utilisées en détection d'objets
Les anchor boxes sont un concept fondamental dans les modèles modernes de détection d'objets tels que Faster R-CNN et YOLO. Elles servent de boîtes de référence prédéfinies qui facilitent la détection d'objets de différentes tailles et proportions, rendant la détection plus rapide et plus fiable.
Au lieu de détecter les objets à partir de zéro, les modèles utilisent les anchor boxes comme points de départ, les ajustant pour mieux correspondre aux objets détectés. Cette approche améliore l'efficacité et la précision, en particulier pour la détection d'objets à différentes échelles.
Différence entre Anchor Box et Bounding Box
Anchor Box : modèle prédéfini servant de référence lors de la détection d'objets ;
Bounding Box : boîte prédite finale après ajustement d'une anchor box pour correspondre à l'objet réel.
Contrairement aux bounding boxes, qui sont ajustées dynamiquement lors de la prédiction, les anchor boxes sont fixées à des positions spécifiques avant toute détection d'objet. Les modèles apprennent à affiner les anchor boxes en ajustant leur taille, leur position et leur ratio d'aspect, les transformant finalement en bounding boxes finales qui représentent précisément les objets détectés.
Génération des boîtes d'ancrage par un réseau
Les boîtes d'ancrage ne sont pas appliquées directement à une image, mais plutôt aux cartes de caractéristiques extraites de l'image. Après l'extraction des caractéristiques, un ensemble de boîtes d'ancrage est placé sur ces cartes, variant en taille et en rapport d'aspect. Le choix des formes des boîtes d'ancrage est crucial et implique un équilibre entre la détection des petits et des grands objets.
Pour définir les tailles des boîtes d'ancrage, les modèles utilisent généralement un mélange de sélection manuelle et d'algorithmes de regroupement comme K-Means pour analyser le jeu de données et déterminer les formes et tailles d'objets les plus courantes. Ces boîtes d'ancrage prédéfinies sont ensuite appliquées à différents emplacements sur les cartes de caractéristiques. Par exemple, un modèle de détection d'objets peut utiliser des boîtes d'ancrage de tailles (16x16), (32x32), (64x64)
, avec des rapports d'aspect tels que 1:1, 1:2, and 2:1
.
Une fois ces boîtes d'ancrage définies, elles sont appliquées aux cartes de caractéristiques, et non à l'image originale. Le modèle assigne plusieurs boîtes d'ancrage à chaque emplacement de la carte de caractéristiques, couvrant différentes formes et tailles. Pendant l'entraînement, le réseau ajuste les boîtes d'ancrage en prédisant des décalages, affinant leur taille et leur position pour mieux correspondre aux objets.
De la boîte d'ancrage à la boîte englobante
Une fois les boîtes d'ancrage assignées aux objets, le modèle prédit des décalages pour les affiner. Ces décalages incluent :
Ajustement des coordonnées du centre de la boîte ;
Mise à l'échelle de la largeur et de la hauteur ;
Déplacement de la boîte pour mieux s'aligner avec l'objet.
En appliquant ces transformations, le modèle convertit les boîtes d'ancrage en boîtes englobantes finales qui correspondent étroitement aux objets dans une image.
Approches sans ancres ou avec un nombre réduit d’ancres
Bien que les boîtes d’ancrage soient largement utilisées, certains modèles cherchent à réduire leur dépendance ou à les éliminer complètement :
Méthodes sans ancre : des modèles comme
CenterNet
etFCOS
prédisent directement la localisation des objets sans ancres prédéfinies, ce qui réduit la complexité ;Approches à nombre d’ancres réduit :
EfficientDet
etYOLOv4
optimisent le nombre de boîtes d’ancrage utilisées, équilibrant vitesse de détection et précision.
Ces approches visent à améliorer l’efficacité de la détection d’objets tout en maintenant des performances élevées, notamment pour les applications en temps réel.
En résumé, les boîtes d’ancrage sont un élément essentiel de la détection d’objets, aidant les modèles à détecter efficacement des objets de différentes tailles et proportions. Cependant, de nouvelles avancées explorent des moyens de réduire ou d’éliminer les boîtes d’ancrage pour une détection encore plus rapide et flexible.
1. Quel est le rôle principal des boîtes d’ancrage dans la détection d’objets ?
2. En quoi les anchor boxes diffèrent-elles des bounding boxes ?
3. Quelle méthode est couramment utilisée pour déterminer les tailles optimales des anchor boxes ?
Merci pour vos commentaires !