Lære Objektgenkendelse | Objektdetektion

Computer Vision Essentials

Stryg for at vise menuen

Objektdetektion er et væsentligt fremskridt ud over billedklassificering og lokalisering. Hvor klassificering afgør, hvilket objekt der er til stede i et billede, og lokalisering identificerer, hvor et enkelt objekt befinder sig, udvider objektdetektion dette ved at genkende flere objekter og deres placeringer i et billede.

Hvad gør objektdetektion anderledes?

I modsætning til klassificering, som tildeler en enkelt etiket til et helt billede, involverer objektdetektion både klassificering og lokalisering af flere objekter. En detektionsmodel skal forudsige afgrænsningsbokse omkring hvert objekt og klassificere dem korrekt. Dette gør objektdetektion til en mere kompleks og beregningsmæssigt krævende opgave end simpel klassificering.

Sliding Window-metoden og dens begrænsninger

En traditionel metode til objektdetektion er sliding window-metoden, hvor et vindue med fast størrelse bevæger sig hen over et billede for at klassificere hver sektion. Selvom metoden er konceptuelt enkel, har den flere begrænsninger:

Computationskrævende: kræver scanning af billedet i flere skalaer og positioner, hvilket medfører lang behandlingstid;
Faste vinduestørrelser: objekter varierer i størrelse og format, hvilket gør vinduer med fast størrelse ineffektive;
Redundante beregninger: overlappende vinduer behandler gentagne gange lignende billedområder, hvilket spilder ressourcer.

På grund af disse ineffektiviteter er dybdelæringsbaserede objektdetektionsmetoder i vid udstrækning blevet foretrukket frem for sliding window-metoden.

Regionsbaserede metoder: Selective Search & Region Proposal Networks (RPN)

For at forbedre effektiviteten foreslår regionsbaserede metoder Regions of Interest (RoIs) i stedet for at scanne hele billedet. To hovedteknikker er:

Selective search: en traditionel metode, der grupperer lignende pixels i regionsforslag, hvilket reducerer antallet af bounding box-forudsigelser. Selvom det er mere effektivt end sliding windows, er det stadig langsomt;
Region proposal networks (RPNs): anvendt i Faster R-CNN, bruger RPNs et neuralt netværk til direkte at generere potentielle objektregioner, hvilket markant forbedrer hastighed og nøjagtighed i forhold til selective search.

Tidlige dybdelæringsbaserede tilgange

Dybdelæring revolutionerede objektdetektion ved at introducere convolutional neural networks (CNNs) i detektionsprocesserne. Nogle af de banebrydende modeller omfatter:

R-CNN (Regions with CNNs): denne metode anvender en CNN på hvert regionsforslag genereret af selektiv søgning. Selvom den er markant mere præcis end traditionelle metoder, er den beregningsmæssigt langsom på grund af gentagne CNN-evalueringer;
Fast R-CNN: en forbedring af R-CNN, hvor hele billedet først behandles med en CNN, hvorefter RoI pooling anvendes til at udtrække træk til klassificering, hvilket øger detektionshastigheden;
Faster R-CNN: introducerer region proposal networks (RPNs) til at erstatte selektiv søgning, hvilket gør objektdetektion hurtigere og mere præcis ved at integrere genereringen af regionsforslag direkte i det neurale netværk.

Objektdetektion bygger videre på klassificering og lokalisering, hvilket gør det muligt for modeller at genkende flere objekter i et billede. Traditionelle metoder som sliding windows er blevet erstattet af mere effektive regionsbaserede teknikker såsom R-CNN og dens efterfølgere. Faster R-CNN, med brugen af region proposal networks, repræsenterer et væsentligt skridt mod realtids, højpræcis objektdetektion. Fremadrettet vil mere avancerede teknikker som YOLO og SSD yderligere forbedre detektionshastighed og effektivitet.