Cursusinhoud
Essentiële Computervisie
Essentiële Computervisie
Objectdetectie
Objectdetectie is een belangrijke vooruitgang ten opzichte van beeldclassificatie en lokalisatie. Waar classificatie bepaalt welk object aanwezig is in een afbeelding, en lokalisatie aangeeft waar een enkel object zich bevindt, breidt objectdetectie dit uit door meerdere objecten en hun locaties binnen een afbeelding te herkennen.
Wat maakt objectdetectie anders?
In tegenstelling tot classificatie, waarbij één label aan een volledige afbeelding wordt toegekend, omvat objectdetectie zowel classificatie als lokalisatie voor meerdere objecten. Een detectiemodel moet omkaderingen voorspellen rond elk object en deze correct classificeren. Dit maakt objectdetectie een complexere en computationeel intensievere taak dan eenvoudige classificatie.
Sliding Window-methode en de beperkingen ervan
Een traditionele methode voor objectdetectie is de sliding window-benadering, waarbij een venster met vaste afmetingen over een afbeelding schuift om elk gedeelte te classificeren. Hoewel het concept eenvoudig is, kent het verschillende beperkingen:
Computationeel duur: vereist het scannen van de afbeelding op meerdere schalen en posities, wat leidt tot hoge verwerkingstijd;
Starre venstergroottes: objecten verschillen in grootte en beeldverhouding, waardoor vaste venstergroottes inefficiënt zijn;
Redundante berekeningen: overlappende vensters verwerken herhaaldelijk vergelijkbare afbeeldingsgebieden, wat middelen verspilt.
Vanwege deze inefficiënties zijn deep learning-gebaseerde objectdetectiemethoden grotendeels in de plaats gekomen van de sliding window-methode.
Regio-gebaseerde methoden: Selective Search & Region Proposal Networks (RPN)
Ter verbetering van de efficiëntie stellen regio-gebaseerde methoden Regions of Interest (RoIs) voor in plaats van het scannen van de volledige afbeelding. Twee belangrijke technieken zijn:
Selective search: een traditionele benadering die vergelijkbare pixels groepeert tot regio-voorstellen, waardoor het aantal voorspellingen van begrenzingskaders wordt verminderd. Hoewel efficiënter dan sliding windows, blijft het traag;
Region proposal networks (RPNs): gebruikt in Faster R-CNN, waarbij RPNs een neuraal netwerk inzetten om potentiële objectregio's direct te genereren, wat de snelheid en nauwkeurigheid aanzienlijk verbetert ten opzichte van selective search.
Vroege deep learning-gebaseerde benaderingen
Deep learning heeft objectdetectie getransformeerd door convolutional neural networks (CNNs) te introduceren in detectie-pijplijnen. Enkele baanbrekende modellen zijn:
R-CNN (Regions with CNNs): deze methode past een CNN toe op elk regio-voorstel dat door selective search is gegenereerd. Hoewel aanzienlijk nauwkeuriger dan traditionele methoden, is het computationeel traag door herhaalde CNN-evaluaties;
Fast R-CNN: een verbetering ten opzichte van R-CNN, dit model verwerkt eerst de volledige afbeelding met een CNN en past vervolgens RoI pooling toe om kenmerken te extraheren voor classificatie, wat de detectie versnelt;
Faster R-CNN: introduceert region proposal networks (RPNs) ter vervanging van selective search, waardoor objectdetectie sneller en nauwkeuriger wordt door het genereren van regio-voorstellen te integreren in het neurale netwerk zelf.
Objectdetectie bouwt voort op classificatie en lokalisatie, waardoor modellen meerdere objecten binnen een afbeelding kunnen herkennen. Traditionele methoden zoals sliding windows zijn vervangen door efficiëntere regio-gebaseerde technieken zoals R-CNN en diens opvolgers. Faster R-CNN, met het gebruik van region proposal networks, vormt een belangrijke stap richting realtime, zeer nauwkeurige objectdetectie. In de volgende hoofdstukken worden geavanceerdere technieken zoals YOLO en SSD besproken, die de snelheid en efficiëntie van detectie verder verbeteren.
1. Wat is het belangrijkste voordeel van Faster R-CNN ten opzichte van Fast R-CNN?
2. Waarom is de sliding window-methode inefficiënt voor objectdetectie?
3. Welke van de volgende is een deep learning-gebaseerde methode voor objectdetectie?
Bedankt voor je feedback!