Contenu du cours
Principes Fondamentaux de la Vision par Ordinateur
Principes Fondamentaux de la Vision par Ordinateur
Prédictions de Boîtes Englobantes
Les boîtes englobantes sont essentielles pour la détection d'objets, fournissant un moyen de marquer l'emplacement des objets. Les modèles de détection d'objets utilisent ces boîtes pour définir la position et les dimensions des objets détectés dans une image. Prédire avec précision les boîtes englobantes est fondamental pour garantir une détection d'objets fiable.
Comment les CNN prédisent les coordonnées des boîtes englobantes
Les réseaux de neurones convolutifs (CNN) traitent les images à travers des couches de convolutions et de sous-échantillonnage afin d'extraire des caractéristiques. Pour la détection d'objets, les CNN génèrent des cartes de caractéristiques qui représentent différentes parties d'une image. La prédiction des boîtes englobantes est généralement réalisée en :
Extrayant les représentations de caractéristiques de l'image ;
Appliquant une fonction de régression pour prédire les coordonnées de la boîte englobante ;
Classifiant les objets détectés dans chaque boîte.
Les prédictions des boîtes englobantes sont représentées par des valeurs numériques correspondant à :
(x, y) : les coordonnées du centre de la boîte ;
(w, h) : la largeur et la hauteur de la boîte.
Exemple : Prédiction de boîtes englobantes à l'aide d'un modèle pré-entraîné
Au lieu d'entraîner un CNN à partir de zéro, il est possible d'utiliser un modèle pré-entraîné tel que Faster R-CNN du model zoo de TensorFlow pour prédire les boîtes englobantes sur une image. Ci-dessous, un exemple de chargement d'un modèle pré-entraîné, de chargement d'une image, de réalisation de prédictions et de visualisation des boîtes englobantes avec les étiquettes de classe.
Importer les bibliothèques
Charger le modèle et l’image
Prétraiter l’image
Effectuer une prédiction et extraire les caractéristiques de la boîte englobante
Tracer les boîtes englobantes
Visualiser
Résultat :
Prédictions de boîtes englobantes basées sur la régression
Une approche pour prédire les boîtes englobantes est la régression directe, où un CNN génère quatre valeurs numériques représentant la position et la taille de la boîte. Des modèles tels que YOLO (You Only Look Once) utilisent cette technique en divisant une image en une grille et en attribuant des prédictions de boîtes englobantes aux cellules de la grille.
Cependant, la régression directe présente des limites :
Difficulté à gérer des objets de tailles et de rapports d’aspect variés ;
Gestion inefficace des objets qui se chevauchent ;
Déplacement imprévisible des boîtes englobantes, entraînant des incohérences.
Approches basées sur les ancres vs. sans ancre
Méthodes basées sur les ancres
Les boîtes d’ancrage sont des boîtes englobantes prédéfinies avec des tailles et des rapports d’aspect fixes. Des modèles comme Faster R-CNN et SSD (Single Shot MultiBox Detector) utilisent les boîtes d’ancrage pour améliorer la précision des prédictions. Le modèle prédit des ajustements aux boîtes d’ancrage plutôt que de prédire les boîtes englobantes à partir de zéro. Cette méthode est efficace pour détecter des objets à différentes échelles mais augmente la complexité computationnelle.
Méthodes sans ancrage
Les méthodes sans ancrage, telles que CenterNet et FCOS (Fully Convolutional One-Stage Object Detection), éliminent les boîtes d'ancrage prédéfinies et prédisent directement les centres des objets. Ces méthodes offrent :
Des architectures de modèles plus simples ;
Des vitesses d'inférence plus rapides ;
Une meilleure généralisation à des tailles d'objets inconnues.
La prédiction de boîte englobante constitue un élément essentiel de la détection d'objets, et différentes approches équilibrent précision et efficacité. Alors que les méthodes basées sur l'ancrage améliorent la précision grâce à l'utilisation de formes prédéfinies, les méthodes sans ancrage simplifient la détection en prédisant directement la localisation des objets. Comprendre ces techniques aide à concevoir de meilleurs systèmes de détection d'objets pour diverses applications réelles.
1. Quelles informations une prédiction de boîte englobante contient-elle généralement ?
2. Quel est l'avantage principal des méthodes basées sur les ancres en détection d'objets ?
3. Quel défi la régression directe rencontre-t-elle dans la prédiction des boîtes englobantes ?
Merci pour vos commentaires !