Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Översikt av Yolo-modellen | Objektdetektering
Grundläggande Datorseende
course content

Kursinnehåll

Grundläggande Datorseende

Grundläggande Datorseende

1. Introduktion till Datorseende
2. Bildbehandling med OpenCV
3. Konvolutionella Neurala Nätverk
4. Objektdetektering
5. Översikt över Avancerade Ämnen

book
Översikt av Yolo-modellen

YOLO (You Only Look Once)-algoritmen är en snabb och effektiv modell för objektigenkänning. Till skillnad från traditionella metoder som R-CNN, vilka använder flera steg, bearbetar YOLO hela bilden i ett enda genomlopp, vilket gör den idealisk för realtidsapplikationer.

Hur YOLO skiljer sig från R-CNN-metoder

Traditionella metoder för objektigenkänning, såsom R-CNN och dess varianter, bygger på en tvåstegsprocess: först genereras regionförslag, därefter klassificeras varje föreslagen region. Även om detta är effektivt, är tillvägagångssättet beräkningsintensivt och saktar ner inferensen, vilket gör det mindre lämpligt för realtidsapplikationer.

YOLO (You Only Look Once) använder en radikalt annorlunda metod. Den delar upp inmatningsbilden i ett rutnät och förutspår avgränsningsrutor och klass-sannolikheter för varje cell i ett enda framåtpass. Denna design behandlar objektigenkänning som ett enda regressionsproblem, vilket gör att YOLO kan uppnå prestanda i realtid.

Till skillnad från R-CNN-baserade metoder som fokuserar endast på lokala regioner, bearbetar YOLO hela bilden på en gång, vilket gör det möjligt att fånga global kontextuell information. Detta leder till bättre prestanda vid detektering av flera eller överlappande objekt, samtidigt som hög hastighet och noggrannhet bibehålls.

YOLO-arkitektur och rutnätsbaserade förutsägelser

YOLO delar upp en inmatningsbild i ett S × S-rutnät, där varje rutnätscell ansvarar för att detektera objekt vars centrum faller inom cellen. Varje cell förutspår koordinater för avgränsningsrutor (x, y, bredd, höjd), ett konfidensvärde för objekt och klass-sannolikheter. Eftersom YOLO bearbetar hela bilden i ett enda framåtpass är den mycket effektiv jämfört med tidigare modeller för objektigenkänning.

Förlustfunktion och klasskonfidenspoäng

YOLO optimerar detekteringsnoggrannhet med en anpassad förlustfunktion, som inkluderar:

  • Lokaliseringsförlust: mäter noggrannheten för avgränsningsrutor;

  • Konfidensförlust: säkerställer att förutsägelser korrekt indikerar förekomst av objekt;

  • Klassificeringsförlust: utvärderar hur väl den förutsagda klassen matchar den sanna klassen.

För att förbättra resultaten använder YOLO ankarrutor och icke-maximal undertryckning (NMS) för att ta bort överflödiga detekteringar.

Fördelar med YOLO: Avvägning mellan hastighet och noggrannhet

YOLO:s främsta fördel är hastighet. Eftersom detektering sker i ett enda steg är YOLO mycket snabbare än R-CNN-baserade metoder, vilket gör den lämplig för realtidsapplikationer som autonom körning och övervakning. Tidigare versioner av YOLO hade dock svårigheter med detektering av små objekt, vilket förbättrades i senare versioner.

YOLO: En kort historik

YOLO, utvecklad av Joseph Redmon och Ali Farhadi 2015, förändrade objektigenkänning med sin enkelpassprocessering.

  • YOLOv2 (2016): lade till batchnormalisering, ankarrutor och dimensionskluster;

  • YOLOv3 (2018): introducerade en effektivare ryggrad, flera ankare och spatial pyramidpooling;

  • YOLOv4 (2020): lade till Mosaic-dataförstärkning, ett ankarlöst detekteringshuvud och en ny förlustfunktion;

  • YOLOv5: förbättrade prestanda med hyperparameteroptimering, experimentuppföljning och automatiska exportfunktioner;

  • YOLOv6 (2022): öppen källkod av Meituan och användes i autonoma leveransrobotar;

  • YOLOv7: utökade funktionaliteten till att inkludera posestimering;

  • YOLOv8 (2023): förbättrade hastighet, flexibilitet och effektivitet för vision AI-uppgifter;

  • YOLOv9: introducerade Programmerbar Gradientinformation (PGI) och Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: utvecklad av Tsinghua University, eliminerade Non-Maximum Suppression (NMS) med ett End-to-End detekteringshuvud;

  • YOLOv11: den senaste modellen som erbjuder topprestanda inom objektigenkänning, segmentering och klassificering.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 7

Fråga AI

expand
ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Grundläggande Datorseende

Grundläggande Datorseende

1. Introduktion till Datorseende
2. Bildbehandling med OpenCV
3. Konvolutionella Neurala Nätverk
4. Objektdetektering
5. Översikt över Avancerade Ämnen

book
Översikt av Yolo-modellen

YOLO (You Only Look Once)-algoritmen är en snabb och effektiv modell för objektigenkänning. Till skillnad från traditionella metoder som R-CNN, vilka använder flera steg, bearbetar YOLO hela bilden i ett enda genomlopp, vilket gör den idealisk för realtidsapplikationer.

Hur YOLO skiljer sig från R-CNN-metoder

Traditionella metoder för objektigenkänning, såsom R-CNN och dess varianter, bygger på en tvåstegsprocess: först genereras regionförslag, därefter klassificeras varje föreslagen region. Även om detta är effektivt, är tillvägagångssättet beräkningsintensivt och saktar ner inferensen, vilket gör det mindre lämpligt för realtidsapplikationer.

YOLO (You Only Look Once) använder en radikalt annorlunda metod. Den delar upp inmatningsbilden i ett rutnät och förutspår avgränsningsrutor och klass-sannolikheter för varje cell i ett enda framåtpass. Denna design behandlar objektigenkänning som ett enda regressionsproblem, vilket gör att YOLO kan uppnå prestanda i realtid.

Till skillnad från R-CNN-baserade metoder som fokuserar endast på lokala regioner, bearbetar YOLO hela bilden på en gång, vilket gör det möjligt att fånga global kontextuell information. Detta leder till bättre prestanda vid detektering av flera eller överlappande objekt, samtidigt som hög hastighet och noggrannhet bibehålls.

YOLO-arkitektur och rutnätsbaserade förutsägelser

YOLO delar upp en inmatningsbild i ett S × S-rutnät, där varje rutnätscell ansvarar för att detektera objekt vars centrum faller inom cellen. Varje cell förutspår koordinater för avgränsningsrutor (x, y, bredd, höjd), ett konfidensvärde för objekt och klass-sannolikheter. Eftersom YOLO bearbetar hela bilden i ett enda framåtpass är den mycket effektiv jämfört med tidigare modeller för objektigenkänning.

Förlustfunktion och klasskonfidenspoäng

YOLO optimerar detekteringsnoggrannhet med en anpassad förlustfunktion, som inkluderar:

  • Lokaliseringsförlust: mäter noggrannheten för avgränsningsrutor;

  • Konfidensförlust: säkerställer att förutsägelser korrekt indikerar förekomst av objekt;

  • Klassificeringsförlust: utvärderar hur väl den förutsagda klassen matchar den sanna klassen.

För att förbättra resultaten använder YOLO ankarrutor och icke-maximal undertryckning (NMS) för att ta bort överflödiga detekteringar.

Fördelar med YOLO: Avvägning mellan hastighet och noggrannhet

YOLO:s främsta fördel är hastighet. Eftersom detektering sker i ett enda steg är YOLO mycket snabbare än R-CNN-baserade metoder, vilket gör den lämplig för realtidsapplikationer som autonom körning och övervakning. Tidigare versioner av YOLO hade dock svårigheter med detektering av små objekt, vilket förbättrades i senare versioner.

YOLO: En kort historik

YOLO, utvecklad av Joseph Redmon och Ali Farhadi 2015, förändrade objektigenkänning med sin enkelpassprocessering.

  • YOLOv2 (2016): lade till batchnormalisering, ankarrutor och dimensionskluster;

  • YOLOv3 (2018): introducerade en effektivare ryggrad, flera ankare och spatial pyramidpooling;

  • YOLOv4 (2020): lade till Mosaic-dataförstärkning, ett ankarlöst detekteringshuvud och en ny förlustfunktion;

  • YOLOv5: förbättrade prestanda med hyperparameteroptimering, experimentuppföljning och automatiska exportfunktioner;

  • YOLOv6 (2022): öppen källkod av Meituan och användes i autonoma leveransrobotar;

  • YOLOv7: utökade funktionaliteten till att inkludera posestimering;

  • YOLOv8 (2023): förbättrade hastighet, flexibilitet och effektivitet för vision AI-uppgifter;

  • YOLOv9: introducerade Programmerbar Gradientinformation (PGI) och Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: utvecklad av Tsinghua University, eliminerade Non-Maximum Suppression (NMS) med ett End-to-End detekteringshuvud;

  • YOLOv11: den senaste modellen som erbjuder topprestanda inom objektigenkänning, segmentering och klassificering.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 7
Vi beklagar att något gick fel. Vad hände?
some-alt