Contenido del Curso
Fundamentos de Visión por Computadora
Fundamentos de Visión por Computadora
Predicciones de Cajas Delimitadoras
Las cajas delimitadoras son fundamentales para la detección de objetos, ya que proporcionan una forma de marcar la ubicación de los objetos. Los modelos de detección de objetos utilizan estas cajas para definir la posición y las dimensiones de los objetos detectados dentro de una imagen. Predecir las cajas delimitadoras con precisión es esencial para garantizar una detección de objetos confiable.
Cómo las CNN predicen las coordenadas de las cajas delimitadoras
Las Redes Neuronales Convolucionales (CNN) procesan imágenes a través de capas de convoluciones y agrupamiento para extraer características. Para la detección de objetos, las CNN generan mapas de características que representan diferentes partes de una imagen. La predicción de cajas delimitadoras se logra típicamente mediante:
Extracción de representaciones de características de la imagen;
Aplicación de una función de regresión para predecir las coordenadas de la caja delimitadora;
Clasificación de los objetos detectados dentro de cada caja.
Las predicciones de cajas delimitadoras se representan como valores numéricos correspondientes a:
(x, y): las coordenadas del centro de la caja;
(w, h): el ancho y la altura de la caja.
Ejemplo: Predicción de cajas delimitadoras utilizando un modelo preentrenado
En lugar de entrenar una CNN desde cero, se puede utilizar un modelo preentrenado como Faster R-CNN del zoológico de modelos de TensorFlow para predecir cajas delimitadoras en una imagen. A continuación se muestra un ejemplo de cómo cargar un modelo preentrenado, cargar una imagen, realizar predicciones y visualizar las cajas delimitadoras con etiquetas de clase.
Importar bibliotecas
Cargar modelo e imagen
Preprocesar la imagen
Realizar predicción y extraer características de la caja delimitadora
Dibujar cajas delimitadoras
Visualizar
Resultado:
Predicciones de Cajas Delimitadoras Basadas en Regresión
Un enfoque para predecir cajas delimitadoras es la regresión directa, donde una CNN genera cuatro valores numéricos que representan la posición y el tamaño de la caja. Modelos como YOLO (You Only Look Once) utilizan esta técnica dividiendo una imagen en una cuadrícula y asignando predicciones de cajas delimitadoras a las celdas de la cuadrícula.
Sin embargo, la regresión directa presenta limitaciones:
Tiene dificultades con objetos de diferentes tamaños y relaciones de aspecto;
No maneja de manera efectiva objetos superpuestos;
Las cajas delimitadoras pueden desplazarse de forma impredecible, lo que genera inconsistencias.
Enfoques Basados en Anclas vs. Sin Anclas
Métodos Basados en Anclas
Las cajas ancla son cajas delimitadoras predefinidas con tamaños y relaciones de aspecto fijas. Modelos como Faster R-CNN y SSD (Single Shot MultiBox Detector) utilizan cajas ancla para mejorar la precisión de las predicciones. El modelo predice ajustes sobre las cajas ancla en lugar de predecir las cajas delimitadoras desde cero. Este método funciona bien para detectar objetos de diferentes escalas, pero incrementa la complejidad computacional.
Métodos Anchor-Free
Los métodos anchor-free, como CenterNet y FCOS (Fully Convolutional One-Stage Object Detection), eliminan las cajas de anclaje predefinidas y en su lugar predicen directamente los centros de los objetos. Estos métodos ofrecen:
Arquitecturas de modelo más simples;
Velocidades de inferencia más rápidas;
Mejor generalización a tamaños de objetos no vistos.
La predicción de cajas delimitadoras es un componente fundamental de la detección de objetos, y diferentes enfoques equilibran precisión y eficiencia. Mientras que los métodos basados en anclas mejoran la precisión utilizando formas predefinidas, los métodos anchor-free simplifican la detección al predecir directamente la ubicación de los objetos. Comprender estas técnicas ayuda a diseñar mejores sistemas de detección de objetos para diversas aplicaciones del mundo real.
1. ¿Qué información suele contener una predicción de caja delimitadora?
2. ¿Cuál es la principal ventaja de los métodos basados en anclas en la detección de objetos?
3. ¿Qué desafío enfrenta la regresión directa en la predicción de cajas delimitadoras?
¡Gracias por tus comentarios!