Kursusindhold
Computer Vision Grundlæggende
Computer Vision Grundlæggende
Forudsigelser af Afgrænsningsbokse
Afgrænsningsbokse er afgørende for objektdetektion og giver en metode til at markere objektplaceringer. Objektdetektionsmodeller anvender disse bokse til at definere position og dimensioner af detekterede objekter i et billede. Præcis forudsigelse af afgrænsningsbokse er grundlæggende for at sikre pålidelig objektdetektion.
Hvordan CNN'er forudsiger koordinater for afgrænsningsbokse
Convolutional Neural Networks (CNN'er) behandler billeder gennem lag af konvolutioner og pooling for at udtrække træk. Til objektdetektion genererer CNN'er feature maps, der repræsenterer forskellige dele af et billede. Forudsigelse af afgrænsningsbokse opnås typisk ved:
Udtrækning af trækrepræsentationer fra billedet;
Anvendelse af en regressionsfunktion til at forudsige koordinater for afgrænsningsbokse;
Klassificering af de detekterede objekter inden for hver boks.
Forudsigelser af afgrænsningsbokse repræsenteres som numeriske værdier svarende til:
(x, y): koordinaterne for boksens centrum;
(w, h): bredden og højden af boksen.
Eksempel: Forudsigelse af afgrænsningsbokse ved brug af en prætrænet model
I stedet for at træne en CNN fra bunden kan vi anvende en prætrænet model såsom Faster R-CNN fra TensorFlows model zoo til at forudsige afgrænsningsbokse på et billede. Nedenfor ses et eksempel på indlæsning af en prætrænet model, indlæsning af et billede, udførelse af forudsigelser og visualisering af afgrænsningsbokse med klasselabels.
Importér biblioteker
Indlæs model og billede
Forbehandl billedet
Lav forudsigelse og udtræk bounding box-egenskaber
Tegn bounding boxes
Visualiser
Resultat:
Regressionsbaserede forudsigelser af afgrænsningsbokse
En tilgang til at forudsige afgrænsningsbokse er direkte regression, hvor et CNN-netværk returnerer fire numeriske værdier, der repræsenterer boksens position og størrelse. Modeller som YOLO (You Only Look Once) anvender denne teknik ved at opdele et billede i et gitter og tildele forudsigelser af afgrænsningsbokse til gitterceller.
Dog har direkte regression begrænsninger:
Den har udfordringer med objekter i varierende størrelser og størrelsesforhold;
Den håndterer ikke overlappende objekter effektivt;
Afgrænsningsbokse kan flytte sig uforudsigeligt, hvilket fører til inkonsistens.
Anchor-baserede vs. anchor-frie tilgange
Anchor-baserede metoder
Anchor-bokse er foruddefinerede afgrænsningsbokse med faste størrelser og størrelsesforhold. Modeller som Faster R-CNN og SSD (Single Shot MultiBox Detector) anvender anchor-bokse for at forbedre forudsigelsesnøjagtigheden. Modellen forudsiger justeringer til anchor-bokse i stedet for at forudsige afgrænsningsbokse fra bunden. Denne metode fungerer godt til at detektere objekter i forskellige skalaer, men øger den beregningsmæssige kompleksitet.
Anchor-fri metoder
Anchor-fri metoder, såsom CenterNet og FCOS (Fully Convolutional One-Stage Object Detection), eliminerer foruddefinerede anchor-bokse og forudsiger i stedet objektets centrum direkte. Disse metoder tilbyder:
Enklere modelarkitekturer;
Hurtigere inferenshastigheder;
Forbedret generalisering til ukendte objektstørrelser.
Forudsigelse af afgrænsningsbokse er en væsentlig komponent i objektdetektion, og forskellige tilgange balancerer nøjagtighed og effektivitet. Mens anchor-baserede metoder forbedrer præcisionen ved at bruge foruddefinerede former, forenkler anchor-fri metoder detektionsprocessen ved direkte at forudsige objektplaceringer. Forståelse af disse teknikker hjælper med at designe bedre objektdetektionssystemer til forskellige virkelige anvendelser.
1. Hvilken information indeholder en forudsigelse af en afgrænsningsboks typisk?
2. Hvad er den primære fordel ved ankerbaserede metoder i objektdetektion?
3. Hvilken udfordring står direkte regression overfor i forudsigelse af afgrænsningsbokse?
Tak for dine kommentarer!