Contenu du cours
Principes Fondamentaux de la Vision par Ordinateur
Principes Fondamentaux de la Vision par Ordinateur
Détection d'Objets
La détection d'objets représente une avancée essentielle au-delà de la classification et de la localisation d’images. Alors que la classification détermine quel objet est présent dans une image et que la localisation identifie où se trouve un seul objet, la détection d’objets va plus loin en reconnaissant plusieurs objets ainsi que leurs emplacements au sein d’une même image.
Qu’est-ce qui distingue la détection d’objets ?
Contrairement à la classification, qui attribue une seule étiquette à une image entière, la détection d’objets implique à la fois la classification et la localisation de plusieurs objets. Un modèle de détection doit prédire des boîtes englobantes autour de chaque objet et les classer correctement. Cela rend la détection d’objets plus complexe et plus exigeante en ressources de calcul que la simple classification.
Approche par fenêtre glissante et ses limites
Une méthode traditionnelle pour la détection d’objets est l’approche dite de la fenêtre glissante, où une fenêtre de taille fixe parcourt l’image afin de classifier chaque section. Bien que conceptuellement simple, cette méthode présente plusieurs limites :
Coût computationnel élevé : nécessite de balayer l’image à différentes échelles et positions, ce qui entraîne un temps de traitement important ;
Taille de fenêtre rigide : les objets varient en taille et en ratio d’aspect, rendant les fenêtres de taille fixe inefficaces ;
Calculs redondants : les fenêtres qui se chevauchent traitent à plusieurs reprises des régions similaires de l’image, gaspillant ainsi des ressources.
En raison de ces inefficacités, les méthodes de détection d’objets basées sur l’apprentissage profond ont largement remplacé l’approche par fenêtre glissante.
Méthodes basées sur les régions : Recherche sélective & Réseaux de propositions de régions (RPN)
Pour améliorer l'efficacité, les méthodes basées sur les régions proposent des régions d'intérêt (RoI) au lieu de balayer l'image entière. Deux techniques majeures sont :
Recherche sélective : une approche traditionnelle qui regroupe les pixels similaires en propositions de régions, réduisant ainsi le nombre de prédictions de boîtes englobantes. Bien que plus efficace que les fenêtres glissantes, elle reste lente ;
Réseaux de propositions de régions (RPN) : utilisés dans Faster R-CNN, les RPN exploitent un réseau de neurones pour générer directement des régions d'objets potentielles, améliorant considérablement la vitesse et la précision par rapport à la recherche sélective.
Premières approches basées sur l'apprentissage profond
L'apprentissage profond a révolutionné la détection d'objets en introduisant les réseaux de neurones convolutifs (CNN) dans les pipelines de détection. Parmi les modèles pionniers, on trouve :
R-CNN (Regions with CNNs) : cette méthode applique un CNN à chaque proposition de région générée par la recherche sélective. Bien que nettement plus précise que les méthodes traditionnelles, elle reste lente en raison des évaluations répétées du CNN ;
Fast R-CNN : une amélioration de R-CNN, ce modèle traite d'abord l'image entière avec un CNN puis applique un pooling RoI pour extraire les caractéristiques en vue de la classification, accélérant ainsi la détection ;
Faster R-CNN : introduit les réseaux de propositions de régions (RPN) pour remplacer la recherche sélective, rendant la détection d'objets plus rapide et plus précise en intégrant la génération de propositions de régions directement dans le réseau de neurones.
La détection d'objets s'appuie sur la classification et la localisation, permettant aux modèles de reconnaître plusieurs objets dans une image. Les méthodes traditionnelles comme les fenêtres glissantes ont été remplacées par des techniques basées sur les régions, telles que R-CNN et ses successeurs. Faster R-CNN, grâce à l'utilisation de réseaux de propositions de régions, constitue une avancée majeure vers une détection d'objets en temps réel et de haute précision. À l'avenir, des techniques plus avancées comme YOLO et SSD continueront d'améliorer la rapidité et l'efficacité de la détection.
1. Quel est l'avantage principal de Faster R-CNN par rapport à Fast R-CNN ?
2. Pourquoi l'approche de la fenêtre glissante est-elle inefficace pour la détection d'objets ?
3. Laquelle des méthodes suivantes est une méthode de détection d'objets basée sur l'apprentissage profond ?
Merci pour vos commentaires !