Aprende Predicciones de Cajas Delimitadoras

Desliza para mostrar el menú

Las cajas delimitadoras son fundamentales para la detección de objetos, ya que proporcionan una forma de marcar la ubicación de los objetos. Los modelos de detección de objetos utilizan estas cajas para definir la posición y las dimensiones de los objetos detectados dentro de una imagen. Predecir las cajas delimitadoras con precisión es esencial para garantizar una detección de objetos confiable.

Cómo las CNN predicen las coordenadas de las cajas delimitadoras

Las Redes Neuronales Convolucionales (CNN) procesan imágenes a través de capas de convoluciones y agrupamiento para extraer características. Para la detección de objetos, las CNN generan mapas de características que representan diferentes partes de una imagen. La predicción de cajas delimitadoras se logra típicamente mediante:

Extracción de representaciones de características de la imagen;
Aplicación de una función de regresión para predecir las coordenadas de la caja delimitadora;
Clasificación de los objetos detectados dentro de cada caja.

Las predicciones de cajas delimitadoras se representan como valores numéricos correspondientes a:

(x, y): las coordenadas del centro de la caja;
(w, h): el ancho y la altura de la caja.

Ejemplo: Predicción de cajas delimitadoras utilizando un modelo preentrenado

En lugar de entrenar una CNN desde cero, se puede utilizar un modelo preentrenado como Faster R-CNN del zoológico de modelos de TensorFlow para predecir cajas delimitadoras en una imagen. A continuación se muestra un ejemplo de cómo cargar un modelo preentrenado, cargar una imagen, realizar predicciones y visualizar las cajas delimitadoras con etiquetas de clase.

Importar bibliotecas

import cv2
import tensorflow as tf
import tensorflow_hub as hub
import matplotlib.pyplot as plt
from tensorflow.image import draw_bounding_boxes

Cargar modelo e imagen

# Load a pretrained Faster R-CNN model from TensorFlow Hub
model = hub.load("https://www.kaggle.com/models/tensorflow/faster-rcnn-resnet-v1/TensorFlow2/faster-rcnn-resnet101-v1-1024x1024/1")

# Load and preprocess the image
img_path = "../../../Documents/Codefinity/CV/Pictures/Section 4/object_detection/bikes_n_persons.png"
img = cv2.imread(img_path)

Preprocesar la imagen

img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
img_resized = tf.image.resize(img, (1024, 1024))
# Convert to uint8
img_resized = tf.cast(img_resized, dtype=tf.uint8) 
# Convert to tensor 
img_tensor = tf.convert_to_tensor(img_resized)[tf.newaxis, ...]

Realizar predicción y extraer características de las cajas delimitadoras

# Make predictions
output = model(img_tensor)

# Extract bounding box coordinates
num_detections = int(output['num_detections'][0])
bboxes = output['detection_boxes'][0][:num_detections].numpy()
class_names = output['detection_classes'][0][:num_detections].numpy().astype(int)
scores = output['detection_scores'][0][:num_detections].numpy()
# Example labels from COCO dataset
labels = {1: "Person", 2: "Bike"}

Dibujar cajas delimitadoras

# Draw bounding boxes with labels
for i in range(num_detections):
    # Confidence threshold
    if scores[i] > 0.5:  
        y1, x1, y2, x2 = bboxes[i]
        start_point = (int(x1 * img.shape[1]), int(y1 * img.shape[0]))
        end_point = (int(x2 * img.shape[1]), int(y2 * img.shape[0]))
        cv2.rectangle(img, start_point, end_point, (0, 255, 0), 2)
        # Get label or 'Unknown'
        label = labels.get(class_names[i], "Unknown")  
        cv2.putText(img, f"{label} ({scores[i]:.2f})", (start_point[0], start_point[1] - 10),
                    cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 2)

Visualizar

# Display image with bounding boxes and labels
plt.figure()
plt.imshow(img)
plt.axis("off")
plt.title("Object Detection with Bounding Boxes and Labels")
plt.show()

Resultado:

Predicciones de Cajas Delimitadoras Basadas en Regresión

Un enfoque para predecir cajas delimitadoras es la regresión directa, donde una CNN genera cuatro valores numéricos que representan la posición y el tamaño de la caja. Modelos como YOLO (You Only Look Once) emplean esta técnica dividiendo una imagen en una cuadrícula y asignando predicciones de cajas delimitadoras a las celdas de la cuadrícula.

Sin embargo, la regresión directa presenta limitaciones:

Tiene dificultades con objetos de diferentes tamaños y relaciones de aspecto;
No gestiona de manera efectiva los objetos superpuestos;
Las cajas delimitadoras pueden desplazarse de forma impredecible, lo que genera inconsistencias.

Enfoques Basados en Anclas vs. Sin Anclas

Métodos Basados en Anclas

Las cajas ancla son cajas delimitadoras predefinidas con tamaños y relaciones de aspecto fijos. Modelos como Faster R-CNN y SSD (Single Shot MultiBox Detector) utilizan cajas ancla para mejorar la precisión de las predicciones. El modelo predice ajustes sobre las cajas ancla en lugar de predecir las cajas delimitadoras desde cero. Este método funciona bien para detectar objetos de diferentes escalas, pero incrementa la complejidad computacional.

Métodos Sin Anclas

Los métodos sin anclas, como CenterNet y FCOS (Fully Convolutional One-Stage Object Detection), eliminan las cajas ancla predefinidas y predicen directamente los centros de los objetos. Estos métodos ofrecen:

Arquitecturas de modelo más simples;
Velocidades de inferencia más rápidas;
Mejor generalización a tamaños de objetos no vistos.

Nota

A (Basado en anclas): predice desplazamientos (líneas verdes) desde anclas predefinidas (azul) para coincidir con la verdad de terreno (rojo). B (Sin anclas): estima directamente los desplazamientos desde un punto hasta sus límites.

La predicción de cajas delimitadoras es un componente fundamental de la detección de objetos, y diferentes enfoques equilibran precisión y eficiencia. Mientras que los métodos basados en anclas mejoran la precisión utilizando formas predefinidas, los métodos sin anclas simplifican la detección al predecir directamente la ubicación de los objetos. Comprender estas técnicas ayuda a diseñar mejores sistemas de detección de objetos para diversas aplicaciones del mundo real.