Leer Objectdetectie | Objectdetectie

Essentiële Computer Vision

Veeg om het menu te tonen

Objectdetectie is een belangrijke vooruitgang ten opzichte van beeldclassificatie en lokalisatie. Waar classificatie bepaalt welk object aanwezig is in een afbeelding, en lokalisatie aangeeft waar een enkel object zich bevindt, breidt objectdetectie dit uit door meerdere objecten en hun locaties binnen een afbeelding te herkennen.

Wat maakt objectdetectie anders?

In tegenstelling tot classificatie, waarbij één label aan een volledige afbeelding wordt toegekend, omvat objectdetectie zowel classificatie als lokalisatie voor meerdere objecten. Een detectiemodel moet omkaderingen voorspellen rond elk object en deze correct classificeren. Dit maakt objectdetectie een complexere en rekenintensievere taak dan eenvoudige classificatie.

Sliding Window-benadering & Beperkingen

Een traditionele methode voor objectdetectie is de sliding window-benadering, waarbij een venster met vaste afmetingen over een afbeelding schuift om elk gedeelte te classificeren. Hoewel het conceptueel eenvoudig is, kent het verschillende beperkingen:

Rekenintensief: vereist het scannen van de afbeelding op meerdere schalen en posities, wat leidt tot hoge verwerkingstijd;
Starre venstergroottes: objecten variëren in grootte en beeldverhouding, waardoor vensters met vaste afmetingen inefficiënt zijn;
Redundante berekeningen: overlappende vensters verwerken herhaaldelijk vergelijkbare afbeeldingsregio's, wat middelen verspilt.

Vanwege deze inefficiënties zijn op deep learning gebaseerde objectdetectiemethoden grotendeels in de plaats gekomen van de sliding window-benadering.

Regiogebaseerde methoden: Selective Search & Region Proposal Networks (RPN)

Om de efficiëntie te verbeteren, stellen regiogebaseerde methoden Regions of Interest (RoIs) voor in plaats van de volledige afbeelding te scannen. Twee belangrijke technieken zijn:

Selective search: een traditionele aanpak die vergelijkbare pixels groepeert tot regiovoorstellen, waardoor het aantal voorspellingen van begrenzingskaders wordt verminderd. Hoewel efficiënter dan sliding windows, is het nog steeds traag;
Region proposal networks (RPNs): gebruikt in Faster R-CNN, waarbij RPNs een neuraal netwerk gebruiken om potentiële objectregio's direct te genereren, wat de snelheid en nauwkeurigheid aanzienlijk verbetert ten opzichte van selective search.

Vroege Deep Learning-gebaseerde Benaderingen

Deep learning heeft objectdetectie getransformeerd door convolutionele neurale netwerken (CNN's) te introduceren in detectie-pijplijnen. Enkele baanbrekende modellen zijn:

R-CNN (Regions with CNNs): deze methode past een CNN toe op elk regio-voorstel dat wordt gegenereerd door selectief zoeken. Hoewel het aanzienlijk nauwkeuriger is dan traditionele methoden, is het computationeel traag vanwege herhaalde CNN-evaluaties;
Fast R-CNN: een verbetering ten opzichte van R-CNN, dit model verwerkt eerst de volledige afbeelding met een CNN en past vervolgens RoI-pooling toe om kenmerken te extraheren voor classificatie, wat de detectie versnelt;
Faster R-CNN: introduceert region proposal networks (RPN's) ter vervanging van selectief zoeken, waardoor objectdetectie sneller en nauwkeuriger wordt door het genereren van regio-voorstellen te integreren in het neurale netwerk zelf.

Objectdetectie bouwt voort op classificatie en lokalisatie, waardoor modellen meerdere objecten binnen een afbeelding kunnen herkennen. Traditionele methoden zoals sliding windows zijn vervangen door efficiëntere regio-gebaseerde technieken zoals R-CNN en zijn opvolgers. Faster R-CNN, met het gebruik van region proposal networks, vormt een belangrijke stap richting real-time, zeer nauwkeurige objectdetectie. In de toekomst zullen geavanceerdere technieken zoals YOLO en SSD de detectiesnelheid en efficiëntie verder verbeteren.