Lära Översikt av YOLO-Modellen

Svep för att visa menyn

YOLO (You Only Look Once)-algoritmen är en snabb och effektiv modell för objektigenkänning. Till skillnad från traditionella metoder som R-CNN, vilka använder flera steg, bearbetar YOLO hela bilden i ett enda genomlopp, vilket gör den idealisk för realtidsapplikationer.

Hur YOLO skiljer sig från R-CNN-metoder

Traditionella metoder för objektigenkänning, såsom R-CNN och dess varianter, bygger på en tvåstegsprocess: först genereras regionförslag, därefter klassificeras varje föreslagen region. Även om detta är effektivt, är metoden beräkningsintensiv och fördröjer inferensen, vilket gör den mindre lämplig för realtidsapplikationer.

YOLO (You Only Look Once) använder en radikalt annorlunda metod. Den delar upp indata-bilden i ett rutnät och förutspår avgränsningsrutor samt klass-sannolikheter för varje cell i ett enda framåtriktat genomlopp. Denna design behandlar objektigenkänning som ett enda regressionsproblem, vilket möjliggör prestanda i realtid.

Till skillnad från R-CNN-baserade metoder som fokuserar enbart på lokala regioner, bearbetar YOLO hela bilden på en gång, vilket gör det möjligt att fånga global kontextuell information. Detta leder till bättre prestanda vid detektering av flera eller överlappande objekt, samtidigt som hög hastighet och noggrannhet bibehålls.

YOLO-arkitektur och rutnätsbaserade förutsägelser

YOLO delar upp en indata-bild i ett S × S-rutnät, där varje rutnätscell ansvarar för att detektera objekt vars centrum faller inom cellen. Varje cell förutspår koordinater för avgränsningsrutor (x, y, bredd, höjd), ett konfidensvärde för objekt samt klass-sannolikheter. Eftersom YOLO bearbetar hela bilden i ett enda framåtriktat genomlopp är den mycket effektiv jämfört med tidigare modeller för objektigenkänning.

Förlustfunktion och klasskonfidenspoäng

YOLO optimerar detekteringsnoggrannhet med en anpassad förlustfunktion, som inkluderar:

Lokaliseringsförlust: mäter noggrannheten för avgränsningsrutor;
Konfidensförlust: säkerställer att förutsägelser korrekt indikerar förekomst av objekt;
Klassificeringsförlust: utvärderar hur väl den förutsagda klassen matchar den verkliga klassen.

För att förbättra resultaten använder YOLO ankarlådor och icke-maximal undertryckning (NMS) för att ta bort överflödiga detekteringar.

Fördelar med YOLO: Avvägning mellan hastighet och noggrannhet

YOLO:s främsta fördel är hastighet. Eftersom detektering sker i ett enda steg är YOLO mycket snabbare än R-CNN-baserade metoder, vilket gör den lämplig för realtidsapplikationer som autonom körning och övervakning. Tidigare versioner av YOLO hade dock svårigheter med att detektera små objekt, vilket förbättrades i senare versioner.

YOLO: En Kort Historik

YOLO, utvecklad av Joseph Redmon och Ali Farhadi år 2015, revolutionerade objektigenkänning med sin enkelpassprocessering.

YOLOv2 (2016): lade till batchnormalisering, ankarboxar och dimensionskluster;
YOLOv3 (2018): introducerade en effektivare ryggrad, flera ankarpunkter och spatial pyramidpooling;
YOLOv4 (2020): lade till Mosaic-dataförstärkning, ett ankarfritt detekteringshuvud och en ny förlustfunktion;
YOLOv5: förbättrade prestanda med hyperparameteroptimering, experimentuppföljning och automatisk exportfunktionalitet;
YOLOv6 (2022): öppen källkod av Meituan och används i autonoma leveransrobotar;
YOLOv7: utökade funktionalitet till att inkludera posestimering;
YOLOv8 (2023): förbättrad hastighet, flexibilitet och effektivitet för vision AI-uppgifter;
YOLOv9: introducerade Programmable Gradient Information (PGI) och Generalized Efficient Layer Aggregation Network (GELAN);
YOLOv10: utvecklad av Tsinghua University, eliminerar Non-Maximum Suppression (NMS) med ett End-to-End detekteringshuvud;
YOLOv11: den senaste modellen som erbjuder topprestanda inom objektigenkänning, segmentering och klassificering.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 25

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 1. Kapitel 25