Kursusindhold
Computer Vision Grundlæggende
Computer Vision Grundlæggende
Objektgenkendelse
Objektdetektion er et væsentligt fremskridt i forhold til billedklassificering og lokalisering. Hvor klassificering afgør, hvilket objekt der er til stede i et billede, og lokalisering identificerer, hvor et enkelt objekt befinder sig, udvider objektdetektion dette ved at genkende flere objekter og deres placeringer i et billede.
Hvad gør objektdetektion anderledes?
I modsætning til klassificering, som tildeler en enkelt etiket til et helt billede, involverer objektdetektion både klassificering og lokalisering af flere objekter. En detektionsmodel skal forudsige afgrænsningsbokse omkring hvert objekt og klassificere dem korrekt. Dette gør objektdetektion til en mere kompleks og beregningsmæssigt krævende opgave end simpel klassificering.
Sliding Window-metoden og dens begrænsninger
En traditionel metode til objektdetektion er sliding window-metoden, hvor et vindue med fast størrelse bevæger sig hen over et billede for at klassificere hver sektion. Selvom metoden er konceptuelt enkel, har den flere begrænsninger:
Beregningsmæssigt krævende: kræver scanning af billedet i flere skalaer og positioner, hvilket fører til lang behandlingstid;
Faste vinduesstørrelser: objekter varierer i størrelse og format, hvilket gør faste vinduer ineffektive;
Redundante beregninger: overlappende vinduer behandler gentagne gange lignende billedområder, hvilket spilder ressourcer.
På grund af disse ineffektiviteter er dybdelæringsbaserede objektdetektionsmetoder i vid udstrækning blevet foretrukket frem for sliding window-metoden.
Regionsbaserede metoder: Selective Search & Region Proposal Networks (RPN)
For at forbedre effektiviteten foreslår regionsbaserede metoder Regions of Interest (RoIs) i stedet for at scanne hele billedet. To hovedteknikker er:
Selective search: en traditionel tilgang, der grupperer lignende pixels i regionsforslag, hvilket reducerer antallet af forudsigelser af afgrænsningsbokse. Selvom det er mere effektivt end sliding windows, er det stadig langsomt;
Region proposal networks (RPNs): anvendt i Faster R-CNN, bruger RPNs et neuralt netværk til direkte at generere potentielle objektregioner, hvilket markant forbedrer hastighed og nøjagtighed i forhold til selective search.
Tidlige dybdelæringsbaserede tilgange
Dyb læring revolutionerede objektdetektion ved at introducere convolutional neural networks (CNNs) i detektionsprocesserne. Nogle af de banebrydende modeller inkluderer:
R-CNN (Regions with CNNs): denne metode anvender et CNN på hver regionsforslag genereret af selective search. Selvom den er væsentligt mere nøjagtig end traditionelle metoder, er den beregningsmæssigt langsom på grund af gentagne CNN-evalueringer;
Fast R-CNN: en forbedring af R-CNN, denne model behandler hele billedet med et CNN først og anvender derefter RoI pooling for at udtrække funktioner til klassificering, hvilket øger detektionshastigheden;
Faster R-CNN: introducerer region proposal networks (RPNs) til at erstatte selective search, hvilket gør objektdetektion hurtigere og mere nøjagtig ved at integrere generering af regionsforslag direkte i det neurale netværk.
Objektdetektion bygger videre på klassificering og lokalisation, hvilket gør det muligt for modeller at genkende flere objekter i et billede. Traditionelle metoder som sliding windows er blevet erstattet af mere effektive regionsbaserede teknikker såsom R-CNN og dets efterfølgere. Faster R-CNN, med brugen af region proposal networks, repræsenterer et væsentligt skridt mod realtids, højpræcis objektdetektion. Fremadrettet vil mere avancerede teknikker som YOLO og SSD yderligere forbedre detektionshastighed og effektivitet.
1. Hvad er den primære fordel ved Faster R-CNN i forhold til Fast R-CNN?
2. Hvorfor er sliding window-metoden ineffektiv til objektdetektion?
3. Hvilken af følgende er en dybdelæringsbaseret metode til objektdetektion?
Tak for dine kommentarer!