Contenido del Curso
Fundamentos de Visión por Computadora
Fundamentos de Visión por Computadora
Detección de Objetos
La detección de objetos es un avance crucial más allá de la clasificación y localización de imágenes. Mientras que la clasificación determina qué objeto está presente en una imagen y la localización identifica dónde se encuentra un solo objeto, la detección de objetos amplía esto al reconocer múltiples objetos y sus ubicaciones dentro de una imagen.
¿Qué hace diferente a la detección de objetos?
A diferencia de la clasificación, que asigna una sola etiqueta a toda una imagen, la detección de objetos implica tanto clasificación como localización para múltiples objetos. Un modelo de detección debe predecir cajas delimitadoras alrededor de cada objeto y clasificarlos correctamente. Esto hace que la detección de objetos sea una tarea más compleja y computacionalmente intensiva que la simple clasificación.
Enfoque de ventana deslizante y sus limitaciones
Un método tradicional para la detección de objetos es el enfoque de ventana deslizante, donde una ventana de tamaño fijo se desplaza por la imagen para clasificar cada sección. Aunque es conceptualmente simple, presenta varias limitaciones:
Costoso computacionalmente: requiere escanear la imagen en múltiples escalas y posiciones, lo que genera un alto tiempo de procesamiento;
Tamaños de ventana rígidos: los objetos varían en tamaño y proporción, haciendo que las ventanas de tamaño fijo sean ineficientes;
Cálculos redundantes: las ventanas superpuestas procesan repetidamente regiones similares de la imagen, desperdiciando recursos.
Debido a estas ineficiencias, los métodos de detección de objetos basados en aprendizaje profundo han reemplazado en gran medida el enfoque de ventana deslizante.
Métodos basados en regiones: Búsqueda selectiva y Redes de Propuestas de Regiones (RPN)
Para mejorar la eficiencia, los métodos basados en regiones proponen Regiones de Interés (RoIs) en lugar de escanear toda la imagen. Dos técnicas principales son:
Búsqueda selectiva: un enfoque tradicional que agrupa píxeles similares en propuestas de regiones, reduciendo la cantidad de predicciones de cajas delimitadoras. Aunque es más eficiente que las ventanas deslizantes, sigue siendo lento;
Redes de propuestas de regiones (RPNs): utilizadas en Faster R-CNN, las RPNs emplean una red neuronal para generar directamente regiones potenciales de objetos, mejorando significativamente la velocidad y precisión en comparación con la búsqueda selectiva.
Primeros enfoques basados en aprendizaje profundo
El aprendizaje profundo revolucionó la detección de objetos al introducir redes neuronales convolucionales (CNNs) en los flujos de trabajo de detección. Algunos de los modelos pioneros incluyen:
R-CNN (Regiones con CNNs): este método aplica una CNN a cada propuesta de región generada por búsqueda selectiva. Aunque es considerablemente más preciso que los métodos tradicionales, es computacionalmente lento debido a las evaluaciones repetidas de la CNN;
Fast R-CNN: una mejora sobre R-CNN, este modelo procesa primero toda la imagen con una CNN y luego aplica agrupamiento de RoI para extraer características para la clasificación, acelerando la detección;
Faster R-CNN: introduce redes de propuestas de regiones (RPNs) para reemplazar la búsqueda selectiva, haciendo la detección de objetos más rápida y precisa al integrar la generación de propuestas de regiones en la propia red neuronal.
La detección de objetos se basa en la clasificación y localización, permitiendo que los modelos reconozcan múltiples objetos dentro de una imagen. Métodos tradicionales como las ventanas deslizantes han sido reemplazados por técnicas basadas en regiones más eficientes, como R-CNN y sus sucesores. Faster R-CNN, con su uso de redes de propuestas de regiones, representa un avance significativo hacia la detección de objetos en tiempo real y de alta precisión. A medida que avanzamos, técnicas más avanzadas como YOLO y SSD seguirán mejorando la velocidad y eficiencia de la detección.
1. ¿Cuál es la principal ventaja de Faster R-CNN sobre Fast R-CNN?
2. ¿Por qué el enfoque de ventana deslizante es ineficiente para la detección de objetos?
3. ¿Cuál de los siguientes es un método de detección de objetos basado en aprendizaje profundo?
¡Gracias por tus comentarios!