Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Oversigt Over YOLO-Modellen | Objektdetektion
Computer Vision Grundlæggende
course content

Kursusindhold

Computer Vision Grundlæggende

Computer Vision Grundlæggende

1. Introduktion til Computer Vision
2. Billedbehandling med OpenCV
3. Konvolutionelle Neurale Netværk
4. Objektdetektion
5. Oversigt Over Avancerede Emner

book
Oversigt Over YOLO-Modellen

YOLO (You Only Look Once)-algoritmen er en hurtig og effektiv model til objektdetektion. I modsætning til traditionelle metoder som R-CNN, der anvender flere trin, behandler YOLO hele billedet i én enkelt gennemgang, hvilket gør den ideel til realtidsapplikationer.

Hvordan YOLO adskiller sig fra R-CNN-metoder

Traditionelle objektdetektionsmetoder, såsom R-CNN og dens varianter, benytter en tostadet pipeline: først genereres region proposals, derefter klassificeres hver foreslået region. Selvom denne tilgang er effektiv, er den beregningsmæssigt krævende og forlænger inferenstiden, hvilket gør den mindre egnet til realtidsapplikationer.

YOLO (You Only Look Once) anvender en radikalt anderledes tilgang. Den opdeler inputbilledet i et gitter og forudsiger bounding boxes og klasse-sandsynligheder for hver celle i én enkelt fremadrettet gennemgang. Dette design behandler objektdetektion som et enkelt regressionsproblem, hvilket gør det muligt for YOLO at opnå realtidsydelse.

I modsætning til R-CNN-baserede metoder, der kun fokuserer på lokale områder, behandler YOLO hele billedet på én gang, hvilket gør det muligt at indfange global kontekstuel information. Dette fører til bedre præstation ved detektion af flere eller overlappende objekter, samtidig med at høj hastighed og nøjagtighed opretholdes.

YOLO-arkitektur og gitterbaserede forudsigelser

YOLO opdeler et inputbillede i et S × S-gitter, hvor hver gittercelle er ansvarlig for at detektere objekter, hvis centrum falder inden for cellen. Hver celle forudsiger koordinater for bounding box (x, y, bredde, højde), en objekttillidsscore og klasse-sandsynligheder. Da YOLO behandler hele billedet i én fremadrettet gennemgang, er den meget effektiv sammenlignet med tidligere objektdetektionsmodeller.

Tabsfunktion og klassesikkerhedsscorer

YOLO optimerer detektionsnøjagtighed ved hjælp af en specialdesignet tabsfunktion, som omfatter:

  • Lokalisationstab: måler nøjagtigheden af afgrænsningsbokse;

  • Sikkerhedstab: sikrer, at forudsigelser korrekt angiver objektets tilstedeværelse;

  • Klassifikationstab: vurderer, hvor godt den forudsagte klasse matcher den sande klasse.

For at forbedre resultaterne anvender YOLO ankerbokse og non-max suppression (NMS) for at fjerne overflødige detektioner.

Fordele ved YOLO: Afvejning mellem hastighed og nøjagtighed

YOLO's primære fordel er hastighed. Da detektion sker i ét gennemløb, er YOLO væsentligt hurtigere end R-CNN-baserede metoder, hvilket gør det velegnet til realtidsapplikationer som autonom kørsel og overvågning. Tidlige versioner af YOLO havde dog udfordringer med detektion af små objekter, hvilket senere versioner har forbedret.

YOLO: En kort historik

YOLO, udviklet af Joseph Redmon og Ali Farhadi i 2015, revolutionerede objektdetektion med sin enkeltpasseringsproces.

  • YOLOv2 (2016): tilføjede batchnormalisering, ankerbokse og dimensionsklynger;

  • YOLOv3 (2018): introducerede en mere effektiv backbone, flere ankre og spatial pyramid pooling;

  • YOLOv4 (2020): tilføjede Mosaic dataforøgelse, et ankerfrit detektionshoved og en ny tabsfunktion;

  • YOLOv5: forbedrede ydeevnen med hyperparameteroptimering, eksperimentsporing og automatiske eksportfunktioner;

  • YOLOv6 (2022): open-sourcet af Meituan og anvendt i autonome leveringsrobotter;

  • YOLOv7: udvidede funktionaliteten til også at omfatte positur-estimering;

  • YOLOv8 (2023): forbedret hastighed, fleksibilitet og effektivitet til vision AI-opgaver;

  • YOLOv9: introducerede Programmable Gradient Information (PGI) og Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: udviklet af Tsinghua University, eliminerede Non-Maximum Suppression (NMS) med et End-to-End detektionshoved;

  • YOLOv11: den nyeste model med førende ydeevne inden for objektdetektion, segmentering og klassifikation.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 7

Spørg AI

expand
ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Computer Vision Grundlæggende

Computer Vision Grundlæggende

1. Introduktion til Computer Vision
2. Billedbehandling med OpenCV
3. Konvolutionelle Neurale Netværk
4. Objektdetektion
5. Oversigt Over Avancerede Emner

book
Oversigt Over YOLO-Modellen

YOLO (You Only Look Once)-algoritmen er en hurtig og effektiv model til objektdetektion. I modsætning til traditionelle metoder som R-CNN, der anvender flere trin, behandler YOLO hele billedet i én enkelt gennemgang, hvilket gør den ideel til realtidsapplikationer.

Hvordan YOLO adskiller sig fra R-CNN-metoder

Traditionelle objektdetektionsmetoder, såsom R-CNN og dens varianter, benytter en tostadet pipeline: først genereres region proposals, derefter klassificeres hver foreslået region. Selvom denne tilgang er effektiv, er den beregningsmæssigt krævende og forlænger inferenstiden, hvilket gør den mindre egnet til realtidsapplikationer.

YOLO (You Only Look Once) anvender en radikalt anderledes tilgang. Den opdeler inputbilledet i et gitter og forudsiger bounding boxes og klasse-sandsynligheder for hver celle i én enkelt fremadrettet gennemgang. Dette design behandler objektdetektion som et enkelt regressionsproblem, hvilket gør det muligt for YOLO at opnå realtidsydelse.

I modsætning til R-CNN-baserede metoder, der kun fokuserer på lokale områder, behandler YOLO hele billedet på én gang, hvilket gør det muligt at indfange global kontekstuel information. Dette fører til bedre præstation ved detektion af flere eller overlappende objekter, samtidig med at høj hastighed og nøjagtighed opretholdes.

YOLO-arkitektur og gitterbaserede forudsigelser

YOLO opdeler et inputbillede i et S × S-gitter, hvor hver gittercelle er ansvarlig for at detektere objekter, hvis centrum falder inden for cellen. Hver celle forudsiger koordinater for bounding box (x, y, bredde, højde), en objekttillidsscore og klasse-sandsynligheder. Da YOLO behandler hele billedet i én fremadrettet gennemgang, er den meget effektiv sammenlignet med tidligere objektdetektionsmodeller.

Tabsfunktion og klassesikkerhedsscorer

YOLO optimerer detektionsnøjagtighed ved hjælp af en specialdesignet tabsfunktion, som omfatter:

  • Lokalisationstab: måler nøjagtigheden af afgrænsningsbokse;

  • Sikkerhedstab: sikrer, at forudsigelser korrekt angiver objektets tilstedeværelse;

  • Klassifikationstab: vurderer, hvor godt den forudsagte klasse matcher den sande klasse.

For at forbedre resultaterne anvender YOLO ankerbokse og non-max suppression (NMS) for at fjerne overflødige detektioner.

Fordele ved YOLO: Afvejning mellem hastighed og nøjagtighed

YOLO's primære fordel er hastighed. Da detektion sker i ét gennemløb, er YOLO væsentligt hurtigere end R-CNN-baserede metoder, hvilket gør det velegnet til realtidsapplikationer som autonom kørsel og overvågning. Tidlige versioner af YOLO havde dog udfordringer med detektion af små objekter, hvilket senere versioner har forbedret.

YOLO: En kort historik

YOLO, udviklet af Joseph Redmon og Ali Farhadi i 2015, revolutionerede objektdetektion med sin enkeltpasseringsproces.

  • YOLOv2 (2016): tilføjede batchnormalisering, ankerbokse og dimensionsklynger;

  • YOLOv3 (2018): introducerede en mere effektiv backbone, flere ankre og spatial pyramid pooling;

  • YOLOv4 (2020): tilføjede Mosaic dataforøgelse, et ankerfrit detektionshoved og en ny tabsfunktion;

  • YOLOv5: forbedrede ydeevnen med hyperparameteroptimering, eksperimentsporing og automatiske eksportfunktioner;

  • YOLOv6 (2022): open-sourcet af Meituan og anvendt i autonome leveringsrobotter;

  • YOLOv7: udvidede funktionaliteten til også at omfatte positur-estimering;

  • YOLOv8 (2023): forbedret hastighed, fleksibilitet og effektivitet til vision AI-opgaver;

  • YOLOv9: introducerede Programmable Gradient Information (PGI) og Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: udviklet af Tsinghua University, eliminerede Non-Maximum Suppression (NMS) med et End-to-End detektionshoved;

  • YOLOv11: den nyeste model med førende ydeevne inden for objektdetektion, segmentering og klassifikation.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 7
Vi beklager, at noget gik galt. Hvad skete der?
some-alt