Contenuti del Corso
Fondamenti di Computer Vision
Fondamenti di Computer Vision
Rilevamento Oggetti
Rilevamento degli oggetti rappresenta un progresso fondamentale rispetto alla classificazione e localizzazione delle immagini. Mentre la classificazione determina quale oggetto è presente in un'immagine e la localizzazione identifica dove si trova un singolo oggetto, il rilevamento degli oggetti amplia queste capacità riconoscendo più oggetti e le loro posizioni all'interno di un'immagine.
Cosa Rende Diverso il Rilevamento degli Oggetti?
A differenza della classificazione, che assegna un'unica etichetta all'intera immagine, il rilevamento degli oggetti coinvolge sia classificazione che localizzazione per oggetti multipli. Un modello di rilevamento deve prevedere riquadri di delimitazione attorno a ciascun oggetto e classificarli correttamente. Questo rende il rilevamento degli oggetti un compito più complesso e computazionalmente intensivo rispetto alla semplice classificazione.
Approccio Sliding Window e le Sue Limitazioni
Un metodo tradizionale per il rilevamento degli oggetti è l'approccio sliding window, in cui una finestra di dimensioni fisse si sposta sull'immagine per classificare ciascuna sezione. Sebbene concettualmente semplice, presenta diverse limitazioni:
Computazionalmente costoso: richiede la scansione dell'immagine a più scale e posizioni, comportando tempi di elaborazione elevati;
Dimensioni delle finestre rigide: gli oggetti variano per dimensione e rapporto d'aspetto, rendendo inefficienti le finestre di dimensioni fisse;
Calcoli ridondanti: le finestre sovrapposte elaborano ripetutamente regioni simili dell'immagine, sprecando risorse.
A causa di queste inefficienze, i metodi di rilevamento degli oggetti basati sul deep learning hanno in gran parte sostituito l'approccio sliding window.
Metodi basati su regioni: Selective Search e Reti di Proposta di Regione (RPN)
Per migliorare l'efficienza, i metodi basati su regioni propongono Region of Interest (RoI) invece di scansionare l'intera immagine. Due tecniche principali sono:
Selective search: un approccio tradizionale che raggruppa pixel simili in proposte di regione, riducendo il numero di predizioni di bounding box. Sebbene più efficiente rispetto alle finestre scorrevoli, risulta comunque lento;
Reti di proposta di regione (RPN): utilizzate in Faster R-CNN, le RPN impiegano una rete neurale per generare direttamente le regioni potenziali degli oggetti, migliorando notevolmente velocità e accuratezza rispetto a selective search.
Approcci iniziali basati sul deep learning
Il deep learning ha rivoluzionato il rilevamento degli oggetti introducendo le reti neurali convoluzionali (CNN) nei pipeline di rilevamento. Alcuni dei modelli pionieristici includono:
R-CNN (Regions with CNNs): questo metodo applica una CNN a ciascuna proposta di regione generata da selective search. Sebbene sia molto più accurato rispetto ai metodi tradizionali, è computazionalmente lento a causa delle ripetute valutazioni della CNN;
Fast R-CNN: un miglioramento rispetto a R-CNN, questo modello elabora prima l'intera immagine con una CNN e poi applica il RoI pooling per estrarre le caratteristiche per la classificazione, velocizzando il rilevamento;
Faster R-CNN: introduce le reti di proposta di regione (RPN) per sostituire selective search, rendendo il rilevamento degli oggetti più veloce e accurato integrando la generazione delle proposte di regione direttamente nella rete neurale.
Il rilevamento degli oggetti si basa su classificazione e localizzazione, consentendo ai modelli di riconoscere più oggetti all'interno di un'immagine. I metodi tradizionali come le finestre scorrevoli sono stati sostituiti da tecniche basate su regioni più efficienti come R-CNN e i suoi successori. Faster R-CNN, grazie all'uso delle reti di proposta di regione, rappresenta un passo significativo verso il rilevamento di oggetti in tempo reale e ad alta accuratezza. In futuro, tecniche più avanzate come YOLO e SSD perfezioneranno ulteriormente la velocità e l'efficienza del rilevamento.
1. Qual è il principale vantaggio di Faster R-CNN rispetto a Fast R-CNN?
2. Perché l'approccio della finestra mobile è inefficiente per il rilevamento degli oggetti?
3. Quale delle seguenti è un metodo di rilevamento oggetti basato sul deep learning?
Grazie per i tuoi commenti!