Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Überblick Über Das YOLO-Modell | Objekterkennung
Computer Vision Essentials
course content

Kursinhalt

Computer Vision Essentials

Computer Vision Essentials

1. Einführung in die Computer Vision
2. Bildverarbeitung mit OpenCV
3. Convolutional Neural Networks
4. Objekterkennung
5. Überblick Über Fortgeschrittene Themen

book
Überblick Über Das YOLO-Modell

Der YOLO-Algorithmus (You Only Look Once) ist ein schnelles und effizientes Modell zur Objekterkennung. Im Gegensatz zu traditionellen Ansätzen wie R-CNN, die mehrere Schritte verwenden, verarbeitet YOLO das gesamte Bild in einem einzigen Durchlauf und eignet sich daher ideal für Echtzeitanwendungen.

Unterschiede zwischen YOLO und R-CNN-Ansätzen

Traditionelle Methoden der Objekterkennung, wie R-CNN und deren Varianten, basieren auf einer zweistufigen Pipeline: Zunächst werden Regionenvorschläge generiert, anschließend wird jede vorgeschlagene Region klassifiziert. Obwohl dieses Verfahren effektiv ist, ist es rechenintensiv und verlangsamt die Inferenz, wodurch es weniger für Echtzeitanwendungen geeignet ist.

YOLO (You Only Look Once) verfolgt einen grundlegend anderen Ansatz. Das Eingabebild wird in ein Gitter unterteilt, und für jede Zelle werden Begrenzungsrahmen sowie Klassenzugehörigkeitswahrscheinlichkeiten in einem einzigen Vorwärtsdurchlauf vorhergesagt. Dieses Design betrachtet die Objekterkennung als ein einziges Regressionsproblem und ermöglicht YOLO somit eine Echtzeitleistung.

Im Gegensatz zu R-CNN-basierten Methoden, die sich nur auf lokale Regionen konzentrieren, verarbeitet YOLO das gesamte Bild gleichzeitig und kann dadurch globale Kontextinformationen erfassen. Dies führt zu einer besseren Erkennung von mehreren oder überlappenden Objekten bei gleichzeitig hoher Geschwindigkeit und Genauigkeit.

YOLO-Architektur und gitterbasierte Vorhersagen

YOLO unterteilt ein Eingabebild in ein S × S-Gitter, wobei jede Gitterzelle für die Erkennung von Objekten verantwortlich ist, deren Mittelpunkt in diese Zelle fällt. Jede Zelle sagt die Koordinaten des Begrenzungsrahmens (x, y, Breite, Höhe), einen Objekt-Konfidenzwert und Klassenzugehörigkeitswahrscheinlichkeiten voraus. Da YOLO das gesamte Bild in einem Vorwärtsdurchlauf verarbeitet, ist es im Vergleich zu früheren Modellen der Objekterkennung äußerst effizient.

Verlustfunktion und Klassenzuverlässigkeitswerte

YOLO optimiert die Erkennungsgenauigkeit mithilfe einer benutzerdefinierten Verlustfunktion, die Folgendes umfasst:

  • Lokalisationverlust: misst die Genauigkeit der Begrenzungsrahmen;

  • Konfidenzverlust: stellt sicher, dass Vorhersagen das Vorhandensein eines Objekts korrekt anzeigen;

  • Klassifikationsverlust: bewertet, wie gut die vorhergesagte Klasse mit der tatsächlichen Klasse übereinstimmt.

Zur Verbesserung der Ergebnisse verwendet YOLO Ankerboxen und Non-Maximum Suppression (NMS), um redundante Erkennungen zu entfernen.

Vorteile von YOLO: Abwägung zwischen Geschwindigkeit und Genauigkeit

Der Hauptvorteil von YOLO ist die Geschwindigkeit. Da die Erkennung in einem einzigen Durchgang erfolgt, ist YOLO deutlich schneller als R-CNN-basierte Methoden und eignet sich daher für Echtzeitanwendungen wie autonomes Fahren und Überwachung. Frühere YOLO-Versionen hatten jedoch Schwierigkeiten bei der Erkennung kleiner Objekte, was in späteren Versionen verbessert wurde.

YOLO: Ein kurzer Überblick

YOLO, entwickelt von Joseph Redmon und Ali Farhadi im Jahr 2015, revolutionierte die Objekterkennung durch die Verarbeitung in einem einzigen Durchgang.

  • YOLOv2 (2016): Einführung von Batch-Normalisierung, Ankerboxen und Dimensionsclustern;

  • YOLOv3 (2018): effizienteres Backbone, mehrere Anker und Spatial Pyramid Pooling;

  • YOLOv4 (2020): Mosaic-Datenaugmentation, ankerfreier Erkennungskopf und neue Verlustfunktion;

  • YOLOv5: Leistungssteigerung durch Hyperparameter-Optimierung, Experiment-Tracking und automatische Exportfunktionen;

  • YOLOv6 (2022): Open-Source durch Meituan und Einsatz in autonomen Lieferrobotern;

  • YOLOv7: Erweiterung um Pose-Schätzung;

  • YOLOv8 (2023): Verbesserte Geschwindigkeit, Flexibilität und Effizienz für Vision-AI-Aufgaben;

  • YOLOv9: Einführung von Programmable Gradient Information (PGI) und dem Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: Entwicklung durch die Tsinghua-Universität, Verzicht auf Non-Maximum Suppression (NMS) durch einen End-to-End-Erkennungskopf;

  • YOLOv11: neuestes Modell mit modernster Leistung in Objekterkennung, Segmentierung und Klassifikation.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 7

Fragen Sie AI

expand
ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Computer Vision Essentials

Computer Vision Essentials

1. Einführung in die Computer Vision
2. Bildverarbeitung mit OpenCV
3. Convolutional Neural Networks
4. Objekterkennung
5. Überblick Über Fortgeschrittene Themen

book
Überblick Über Das YOLO-Modell

Der YOLO-Algorithmus (You Only Look Once) ist ein schnelles und effizientes Modell zur Objekterkennung. Im Gegensatz zu traditionellen Ansätzen wie R-CNN, die mehrere Schritte verwenden, verarbeitet YOLO das gesamte Bild in einem einzigen Durchlauf und eignet sich daher ideal für Echtzeitanwendungen.

Unterschiede zwischen YOLO und R-CNN-Ansätzen

Traditionelle Methoden der Objekterkennung, wie R-CNN und deren Varianten, basieren auf einer zweistufigen Pipeline: Zunächst werden Regionenvorschläge generiert, anschließend wird jede vorgeschlagene Region klassifiziert. Obwohl dieses Verfahren effektiv ist, ist es rechenintensiv und verlangsamt die Inferenz, wodurch es weniger für Echtzeitanwendungen geeignet ist.

YOLO (You Only Look Once) verfolgt einen grundlegend anderen Ansatz. Das Eingabebild wird in ein Gitter unterteilt, und für jede Zelle werden Begrenzungsrahmen sowie Klassenzugehörigkeitswahrscheinlichkeiten in einem einzigen Vorwärtsdurchlauf vorhergesagt. Dieses Design betrachtet die Objekterkennung als ein einziges Regressionsproblem und ermöglicht YOLO somit eine Echtzeitleistung.

Im Gegensatz zu R-CNN-basierten Methoden, die sich nur auf lokale Regionen konzentrieren, verarbeitet YOLO das gesamte Bild gleichzeitig und kann dadurch globale Kontextinformationen erfassen. Dies führt zu einer besseren Erkennung von mehreren oder überlappenden Objekten bei gleichzeitig hoher Geschwindigkeit und Genauigkeit.

YOLO-Architektur und gitterbasierte Vorhersagen

YOLO unterteilt ein Eingabebild in ein S × S-Gitter, wobei jede Gitterzelle für die Erkennung von Objekten verantwortlich ist, deren Mittelpunkt in diese Zelle fällt. Jede Zelle sagt die Koordinaten des Begrenzungsrahmens (x, y, Breite, Höhe), einen Objekt-Konfidenzwert und Klassenzugehörigkeitswahrscheinlichkeiten voraus. Da YOLO das gesamte Bild in einem Vorwärtsdurchlauf verarbeitet, ist es im Vergleich zu früheren Modellen der Objekterkennung äußerst effizient.

Verlustfunktion und Klassenzuverlässigkeitswerte

YOLO optimiert die Erkennungsgenauigkeit mithilfe einer benutzerdefinierten Verlustfunktion, die Folgendes umfasst:

  • Lokalisationverlust: misst die Genauigkeit der Begrenzungsrahmen;

  • Konfidenzverlust: stellt sicher, dass Vorhersagen das Vorhandensein eines Objekts korrekt anzeigen;

  • Klassifikationsverlust: bewertet, wie gut die vorhergesagte Klasse mit der tatsächlichen Klasse übereinstimmt.

Zur Verbesserung der Ergebnisse verwendet YOLO Ankerboxen und Non-Maximum Suppression (NMS), um redundante Erkennungen zu entfernen.

Vorteile von YOLO: Abwägung zwischen Geschwindigkeit und Genauigkeit

Der Hauptvorteil von YOLO ist die Geschwindigkeit. Da die Erkennung in einem einzigen Durchgang erfolgt, ist YOLO deutlich schneller als R-CNN-basierte Methoden und eignet sich daher für Echtzeitanwendungen wie autonomes Fahren und Überwachung. Frühere YOLO-Versionen hatten jedoch Schwierigkeiten bei der Erkennung kleiner Objekte, was in späteren Versionen verbessert wurde.

YOLO: Ein kurzer Überblick

YOLO, entwickelt von Joseph Redmon und Ali Farhadi im Jahr 2015, revolutionierte die Objekterkennung durch die Verarbeitung in einem einzigen Durchgang.

  • YOLOv2 (2016): Einführung von Batch-Normalisierung, Ankerboxen und Dimensionsclustern;

  • YOLOv3 (2018): effizienteres Backbone, mehrere Anker und Spatial Pyramid Pooling;

  • YOLOv4 (2020): Mosaic-Datenaugmentation, ankerfreier Erkennungskopf und neue Verlustfunktion;

  • YOLOv5: Leistungssteigerung durch Hyperparameter-Optimierung, Experiment-Tracking und automatische Exportfunktionen;

  • YOLOv6 (2022): Open-Source durch Meituan und Einsatz in autonomen Lieferrobotern;

  • YOLOv7: Erweiterung um Pose-Schätzung;

  • YOLOv8 (2023): Verbesserte Geschwindigkeit, Flexibilität und Effizienz für Vision-AI-Aufgaben;

  • YOLOv9: Einführung von Programmable Gradient Information (PGI) und dem Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: Entwicklung durch die Tsinghua-Universität, Verzicht auf Non-Maximum Suppression (NMS) durch einen End-to-End-Erkennungskopf;

  • YOLOv11: neuestes Modell mit modernster Leistung in Objekterkennung, Segmentierung und Klassifikation.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 7
Wir sind enttäuscht, dass etwas schief gelaufen ist. Was ist passiert?
some-alt