Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Detección de Objetos | Sección
Visión por Computadora Aplicada

bookDetección de Objetos

Desliza para mostrar el menú

La detección de objetos representa un avance crucial más allá de la clasificación y localización de imágenes. Mientras que la clasificación determina qué objeto está presente en una imagen y la localización identifica dónde se encuentra un solo objeto, la detección de objetos amplía esto al reconocer múltiples objetos y sus ubicaciones dentro de una imagen.

¿Qué hace diferente a la detección de objetos?

A diferencia de la clasificación, que asigna una sola etiqueta a toda una imagen, la detección de objetos implica tanto clasificación como localización para múltiples objetos. Un modelo de detección debe predecir cajas delimitadoras alrededor de cada objeto y clasificarlos correctamente. Esto convierte a la detección de objetos en una tarea más compleja y computacionalmente intensiva que la simple clasificación.

sample_detection

Enfoque de Ventana Deslizante y sus Limitaciones

Un método tradicional para la detección de objetos es el enfoque de ventana deslizante, donde una ventana de tamaño fijo se desplaza sobre una imagen para clasificar cada sección. Aunque es conceptualmente sencillo, presenta varias limitaciones:

  • Computacionalmente costoso: requiere escanear la imagen en múltiples escalas y posiciones, lo que genera un alto tiempo de procesamiento;
  • Tamaños de ventana rígidos: los objetos varían en tamaño y proporción, lo que hace que las ventanas de tamaño fijo sean ineficientes;
  • Cálculos redundantes: las ventanas superpuestas procesan repetidamente regiones similares de la imagen, desperdiciando recursos.

Debido a estas ineficiencias, los métodos de detección de objetos basados en aprendizaje profundo han reemplazado en gran medida el enfoque de ventana deslizante.

sliding_window

Métodos Basados en Regiones: Búsqueda Selectiva y Redes de Propuestas de Regiones (RPN)

Para mejorar la eficiencia, los métodos basados en regiones proponen Regiones de Interés (RoIs) en lugar de escanear toda la imagen. Dos técnicas principales son:

  • Búsqueda selectiva: un enfoque tradicional que agrupa píxeles similares en propuestas de regiones, reduciendo la cantidad de predicciones de cajas delimitadoras. Aunque es más eficiente que las ventanas deslizantes, sigue siendo lento;

  • Redes de propuestas de regiones (RPNs): utilizadas en Faster R-CNN, las RPNs emplean una red neuronal para generar directamente regiones potenciales de objetos, mejorando significativamente la velocidad y precisión respecto a la búsqueda selectiva.

region_based

Primeros enfoques basados en aprendizaje profundo

El aprendizaje profundo revolucionó la detección de objetos al introducir redes neuronales convolucionales (CNNs) en los flujos de trabajo de detección. Algunos de los modelos pioneros incluyen:

  • R-CNN (Regiones con CNNs): este método aplica una CNN a cada propuesta de región generada mediante búsqueda selectiva. Aunque es significativamente más preciso que los métodos tradicionales, resulta computacionalmente lento debido a las evaluaciones repetidas de la CNN;

  • Fast R-CNN: una mejora sobre R-CNN, este modelo procesa la imagen completa con una CNN primero y luego aplica RoI pooling para extraer características para la clasificación, acelerando la detección;

  • Faster R-CNN: introduce redes de propuestas de regiones (RPNs) para reemplazar la búsqueda selectiva, haciendo la detección de objetos más rápida y precisa al integrar la generación de propuestas de regiones en la propia red neuronal.

La detección de objetos se basa en la clasificación y localización, permitiendo que los modelos reconozcan múltiples objetos dentro de una imagen. Los métodos tradicionales como las ventanas deslizantes han sido reemplazados por técnicas basadas en regiones más eficientes, como R-CNN y sus sucesores. Faster R-CNN, con su uso de redes de propuestas de regiones, representa un avance significativo hacia la detección de objetos en tiempo real y de alta precisión. A medida que avanzamos, técnicas más avanzadas como YOLO y SSD seguirán mejorando la velocidad y eficiencia de la detección.

1. ¿Cuál es la principal ventaja de Faster R-CNN sobre Fast R-CNN?

2. ¿Por qué el enfoque de ventana deslizante es ineficiente para la detección de objetos?

3. ¿Cuál de los siguientes es un método de detección de objetos basado en aprendizaje profundo?

question mark

¿Cuál es la principal ventaja de Faster R-CNN sobre Fast R-CNN?

Select the correct answer

question mark

¿Por qué el enfoque de ventana deslizante es ineficiente para la detección de objetos?

Select the correct answer

question mark

¿Cuál de los siguientes es un método de detección de objetos basado en aprendizaje profundo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 20

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 20
some-alt