Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Panoramica del Modello YOLO | Rilevamento Oggetti
Practice
Projects
Quizzes & Challenges
Quizzes
Challenges
/
Fondamenti di Computer Vision

bookPanoramica del Modello YOLO

L'algoritmo YOLO (You Only Look Once) è un modello di rilevamento oggetti rapido ed efficiente. A differenza degli approcci tradizionali come R-CNN che utilizzano più fasi, YOLO elabora l'intera immagine in un unico passaggio, rendendolo ideale per applicazioni in tempo reale.

Come YOLO si differenzia dagli approcci R-CNN

I metodi tradizionali di rilevamento oggetti, come R-CNN e le sue varianti, si basano su una pipeline a due stadi: prima generano proposte di regione, poi classificano ciascuna regione proposta. Sebbene efficace, questo approccio è computazionalmente oneroso e rallenta l'inferenza, rendendolo meno adatto alle applicazioni in tempo reale.

YOLO (You Only Look Once) adotta un approccio radicalmente diverso. Divide l'immagine di input in una griglia e predice bounding box e probabilità di classe per ciascuna cella in un unico passaggio forward. Questo design inquadra il rilevamento oggetti come un unico problema di regressione, consentendo a YOLO di ottenere prestazioni in tempo reale.

A differenza dei metodi basati su R-CNN che si concentrano solo su regioni locali, YOLO elabora l'intera immagine contemporaneamente, permettendo di catturare informazioni contestuali globali. Questo porta a migliori prestazioni nel rilevamento di oggetti multipli o sovrapposti, mantenendo elevata velocità e accuratezza.

Architettura YOLO e Predizioni Basate su Griglia

YOLO suddivide un'immagine di input in una griglia S × S, dove ciascuna cella della griglia è responsabile del rilevamento degli oggetti il cui centro ricade al suo interno. Ogni cella predice le coordinate del bounding box (x, y, larghezza, altezza), un punteggio di confidenza dell'oggetto e le probabilità di classe. Poiché YOLO elabora l'intera immagine in un unico passaggio forward, risulta altamente efficiente rispetto ai modelli di rilevamento oggetti precedenti.

yolo_architecture

Funzione di perdita e punteggi di confidenza delle classi

YOLO ottimizza la precisione del rilevamento utilizzando una funzione di perdita personalizzata, che include:

  • Perdita di localizzazione: misura l'accuratezza del riquadro di delimitazione;
  • Perdita di confidenza: garantisce che le previsioni indichino correttamente la presenza di oggetti;
  • Perdita di classificazione: valuta quanto la classe prevista corrisponde a quella reale.

Per migliorare i risultati, YOLO applica anchor box e soppressione non massima (NMS) per rimuovere rilevamenti ridondanti.

Vantaggi di YOLO: Compromesso tra velocità e accuratezza

Il principale vantaggio di YOLO è la velocità. Poiché il rilevamento avviene in un unico passaggio, YOLO è molto più rapido rispetto ai metodi basati su R-CNN, rendendolo adatto ad applicazioni in tempo reale come la guida autonoma e la videosorveglianza. Tuttavia, le prime versioni di YOLO avevano difficoltà nel rilevamento di oggetti di piccole dimensioni, aspetto migliorato nelle versioni successive.

YOLO: Una Breve Storia

YOLO, sviluppato da Joseph Redmon e Ali Farhadi nel 2015, ha rivoluzionato il rilevamento degli oggetti grazie all'elaborazione in singolo passaggio.

  • YOLOv2 (2016): aggiunta della batch normalization, anchor boxes e cluster di dimensioni;
  • YOLOv3 (2018): introdotto un backbone più efficiente, anchor multipli e spatial pyramid pooling;
  • YOLOv4 (2020): aggiunta della data augmentation Mosaic, una testa di rilevamento anchor-free e una nuova funzione di perdita;
  • YOLOv5: miglioramento delle prestazioni tramite ottimizzazione degli iperparametri, tracciamento degli esperimenti e funzionalità di esportazione automatica;
  • YOLOv6 (2022): open source da Meituan e utilizzato nei robot per la consegna autonoma;
  • YOLOv7: capacità ampliate per includere la stima della posa;
  • YOLOv8 (2023): miglioramenti in velocità, flessibilità ed efficienza per i compiti di visione artificiale;
  • YOLOv9: introdotti Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN);
  • YOLOv10: sviluppato dalla Tsinghua University, elimina la Non-Maximum Suppression (NMS) con una testa di rilevamento End-to-End;
  • YOLOv11: il modello più recente che offre prestazioni all'avanguardia in rilevamento oggetti, segmentazione e classificazione.
yolo_history
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 7

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

bookPanoramica del Modello YOLO

Scorri per mostrare il menu

L'algoritmo YOLO (You Only Look Once) è un modello di rilevamento oggetti rapido ed efficiente. A differenza degli approcci tradizionali come R-CNN che utilizzano più fasi, YOLO elabora l'intera immagine in un unico passaggio, rendendolo ideale per applicazioni in tempo reale.

Come YOLO si differenzia dagli approcci R-CNN

I metodi tradizionali di rilevamento oggetti, come R-CNN e le sue varianti, si basano su una pipeline a due stadi: prima generano proposte di regione, poi classificano ciascuna regione proposta. Sebbene efficace, questo approccio è computazionalmente oneroso e rallenta l'inferenza, rendendolo meno adatto alle applicazioni in tempo reale.

YOLO (You Only Look Once) adotta un approccio radicalmente diverso. Divide l'immagine di input in una griglia e predice bounding box e probabilità di classe per ciascuna cella in un unico passaggio forward. Questo design inquadra il rilevamento oggetti come un unico problema di regressione, consentendo a YOLO di ottenere prestazioni in tempo reale.

A differenza dei metodi basati su R-CNN che si concentrano solo su regioni locali, YOLO elabora l'intera immagine contemporaneamente, permettendo di catturare informazioni contestuali globali. Questo porta a migliori prestazioni nel rilevamento di oggetti multipli o sovrapposti, mantenendo elevata velocità e accuratezza.

Architettura YOLO e Predizioni Basate su Griglia

YOLO suddivide un'immagine di input in una griglia S × S, dove ciascuna cella della griglia è responsabile del rilevamento degli oggetti il cui centro ricade al suo interno. Ogni cella predice le coordinate del bounding box (x, y, larghezza, altezza), un punteggio di confidenza dell'oggetto e le probabilità di classe. Poiché YOLO elabora l'intera immagine in un unico passaggio forward, risulta altamente efficiente rispetto ai modelli di rilevamento oggetti precedenti.

yolo_architecture

Funzione di perdita e punteggi di confidenza delle classi

YOLO ottimizza la precisione del rilevamento utilizzando una funzione di perdita personalizzata, che include:

  • Perdita di localizzazione: misura l'accuratezza del riquadro di delimitazione;
  • Perdita di confidenza: garantisce che le previsioni indichino correttamente la presenza di oggetti;
  • Perdita di classificazione: valuta quanto la classe prevista corrisponde a quella reale.

Per migliorare i risultati, YOLO applica anchor box e soppressione non massima (NMS) per rimuovere rilevamenti ridondanti.

Vantaggi di YOLO: Compromesso tra velocità e accuratezza

Il principale vantaggio di YOLO è la velocità. Poiché il rilevamento avviene in un unico passaggio, YOLO è molto più rapido rispetto ai metodi basati su R-CNN, rendendolo adatto ad applicazioni in tempo reale come la guida autonoma e la videosorveglianza. Tuttavia, le prime versioni di YOLO avevano difficoltà nel rilevamento di oggetti di piccole dimensioni, aspetto migliorato nelle versioni successive.

YOLO: Una Breve Storia

YOLO, sviluppato da Joseph Redmon e Ali Farhadi nel 2015, ha rivoluzionato il rilevamento degli oggetti grazie all'elaborazione in singolo passaggio.

  • YOLOv2 (2016): aggiunta della batch normalization, anchor boxes e cluster di dimensioni;
  • YOLOv3 (2018): introdotto un backbone più efficiente, anchor multipli e spatial pyramid pooling;
  • YOLOv4 (2020): aggiunta della data augmentation Mosaic, una testa di rilevamento anchor-free e una nuova funzione di perdita;
  • YOLOv5: miglioramento delle prestazioni tramite ottimizzazione degli iperparametri, tracciamento degli esperimenti e funzionalità di esportazione automatica;
  • YOLOv6 (2022): open source da Meituan e utilizzato nei robot per la consegna autonoma;
  • YOLOv7: capacità ampliate per includere la stima della posa;
  • YOLOv8 (2023): miglioramenti in velocità, flessibilità ed efficienza per i compiti di visione artificiale;
  • YOLOv9: introdotti Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN);
  • YOLOv10: sviluppato dalla Tsinghua University, elimina la Non-Maximum Suppression (NMS) con una testa di rilevamento End-to-End;
  • YOLOv11: il modello più recente che offre prestazioni all'avanguardia in rilevamento oggetti, segmentazione e classificazione.
yolo_history
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 7
some-alt