Kursinnehåll
Grundläggande Datorseende
Grundläggande Datorseende
Ankarlådor
Varför ankarboxar används vid objektigenkänning
Ankarboxar är ett grundläggande koncept i moderna objektigenkänningsmodeller såsom Faster R-CNN och YOLO. De fungerar som fördefinierade referensrutor som hjälper till att identifiera objekt av olika storlekar och proportioner, vilket gör detekteringen snabbare och mer tillförlitlig.
Istället för att upptäcka objekt från grunden använder modeller ankarboxar som utgångspunkter och justerar dem för att bättre passa de upptäckta objekten. Detta tillvägagångssätt förbättrar effektiviteten och noggrannheten, särskilt vid detektering av objekt i olika skalor.
Skillnad mellan ankarbox och avgränsningsruta
Ankarbox: en fördefinierad mall som fungerar som referens vid objektigenkänning;
Avgränsningsruta: den slutliga förutsagda rutan efter att justeringar har gjorts på en ankarbox för att matcha det faktiska objektet.
Till skillnad från avgränsningsrutor, som justeras dynamiskt under prediktionen, är ankarboxar fixerade på specifika positioner innan någon objektigenkänning sker. Modeller lär sig att förfina ankarboxar genom att justera deras storlek, position och proportioner, vilket slutligen omvandlar dem till slutliga avgränsningsrutor som exakt representerar de upptäckta objekten.
Hur ett nätverk genererar ankarboxar
Ankarboxar appliceras inte direkt på en bild utan på funktionskartor som extraherats från bilden. Efter funktionsutvinning placeras en uppsättning ankarboxar på dessa funktionskartor, med varierande storlek och bildförhållande. Valet av ankarboxarnas former är avgörande och innebär en avvägning mellan att upptäcka små och stora objekt.
För att definiera ankarboxarnas storlekar använder modeller vanligtvis en kombination av manuell val och klustringsalgoritmer som K-Means för att analysera datamängden och fastställa de vanligaste objektformerna och storlekarna. Dessa fördefinierade ankarboxar appliceras sedan på olika positioner över funktionskartorna. Till exempel kan en objektdetekteringsmodell använda ankarboxar av storlekar (16x16), (32x32), (64x64)
, med bildförhållanden såsom 1:1, 1:2, and 2:1
.
När dessa ankarboxar är definierade appliceras de på funktionskartor, inte på den ursprungliga bilden. Modellen tilldelar flera ankarboxar till varje position på funktionskartan, vilket täcker olika former och storlekar. Under träning justerar nätverket ankarboxarna genom att förutsäga offset-värden, vilket förfinar deras storlek och position för att bättre passa objekten.
Från ankarbox till avgränsningsruta
När ankarboxar har tilldelats objekt förutspår modellen offset-värden för att förfina dem. Dessa offset-värden inkluderar:
Justering av boxens mittkoordinater;
Skalning av bredd och höjd;
Förskjutning av boxen för att bättre anpassa sig till objektet.
Genom att tillämpa dessa transformationer omvandlar modellen ankarboxar till slutliga avgränsningsrutor som noggrant matchar objekten i en bild.
Metoder som inte använder ankare eller minskar deras antal
Även om ankarboxar är allmänt använda, strävar vissa modeller efter att minska beroendet av dem eller eliminera dem helt:
Ankarfria metoder: modeller som
CenterNet
ochFCOS
förutspår objektens positioner direkt utan fördefinierade ankare, vilket minskar komplexiteten;Metoder med reducerat antal ankare:
EfficientDet
ochYOLOv4
optimerar antalet använda ankarboxar för att balansera detekteringshastighet och noggrannhet.
Dessa metoder syftar till att förbättra effektiviteten i objektdetektering samtidigt som hög prestanda bibehålls, särskilt för realtidsapplikationer.
Sammanfattningsvis är ankarboxar en avgörande del av objektdetektering och hjälper modeller att effektivt upptäcka objekt i olika storlekar och bildförhållanden. Nya framsteg undersöker dock sätt att minska eller eliminera ankarboxar för ännu snabbare och mer flexibel detektering.
1. Vad är ankarboxarnas huvudsakliga roll i objektdetektering?
2. Hur skiljer sig ankarboxar från avgränsningsrutor?
3. Vilken metod används vanligtvis för att bestämma optimala storlekar på ankarboxar?
Tack för dina kommentarer!