Conteúdo do Curso
Fundamentos de Visão Computacional
Fundamentos de Visão Computacional
Previsões de Caixas Delimitadoras
Caixas delimitadoras são essenciais para a detecção de objetos, fornecendo uma maneira de marcar as localizações dos objetos. Modelos de detecção de objetos utilizam essas caixas para definir a posição e as dimensões dos objetos detectados dentro de uma imagem. Prever caixas delimitadoras com precisão é fundamental para garantir uma detecção de objetos confiável.
Como as CNNs Predizem as Coordenadas das Caixas Delimitadoras
Redes Neurais Convolucionais (CNNs) processam imagens por meio de camadas de convolução e pooling para extrair características. Para detecção de objetos, as CNNs geram mapas de características que representam diferentes partes de uma imagem. A previsão das caixas delimitadoras é normalmente realizada por:
Extração de representações de características da imagem;
Aplicação de uma função de regressão para prever as coordenadas das caixas delimitadoras;
Classificação dos objetos detectados dentro de cada caixa.
As previsões das caixas delimitadoras são representadas por valores numéricos correspondentes a:
(x, y): as coordenadas do centro da caixa;
(w, h): a largura e a altura da caixa.
Exemplo: Previsão de Caixas Delimitadoras Usando um Modelo Pré-treinado
Em vez de treinar uma CNN do zero, é possível utilizar um modelo pré-treinado como o Faster R-CNN do TensorFlow's model zoo para prever caixas delimitadoras em uma imagem. Abaixo está um exemplo de como carregar um modelo pré-treinado, carregar uma imagem, fazer previsões e visualizar as caixas delimitadoras com os rótulos das classes.
Importar bibliotecas
Carregar modelo e imagem
Pré-processar a imagem
Fazer previsão e extrair características da caixa delimitadora
Desenhar caixas delimitadoras
Visualizar
Resultado:
Previsões de Caixas Delimitadoras Baseadas em Regressão
Uma abordagem para prever caixas delimitadoras é a regressão direta, na qual uma CNN gera quatro valores numéricos que representam a posição e o tamanho da caixa. Modelos como o YOLO (You Only Look Once) utilizam essa técnica dividindo uma imagem em uma grade e atribuindo previsões de caixas delimitadoras às células da grade.
No entanto, a regressão direta apresenta limitações:
Dificuldade com objetos de tamanhos e proporções variadas;
Ineficácia no tratamento de objetos sobrepostos;
As caixas delimitadoras podem se deslocar de forma imprevisível, causando inconsistências.
Abordagens Baseadas e Não Baseadas em Âncoras
Métodos Baseados em Âncoras
Caixas âncora são caixas delimitadoras predefinidas com tamanhos e proporções fixas. Modelos como o Faster R-CNN e o SSD (Single Shot MultiBox Detector) utilizam caixas âncora para melhorar a precisão das previsões. O modelo prevê ajustes nas caixas âncora em vez de prever caixas delimitadoras do zero. Esse método é eficaz para detectar objetos em diferentes escalas, mas aumenta a complexidade computacional.
Métodos Anchor-Free
Métodos anchor-free, como CenterNet e FCOS (Fully Convolutional One-Stage Object Detection), eliminam caixas âncora predefinidas e, em vez disso, predizem diretamente os centros dos objetos. Esses métodos oferecem:
Arquiteturas de modelo mais simples;
Velocidades de inferência mais rápidas;
Melhor generalização para tamanhos de objetos não vistos.
Predição de bounding box é um componente essencial da detecção de objetos, e diferentes abordagens equilibram precisão e eficiência. Enquanto métodos baseados em âncoras melhoram a precisão utilizando formas predefinidas, métodos anchor-free simplificam a detecção ao prever diretamente as localizações dos objetos. Compreender essas técnicas auxilia no desenvolvimento de sistemas de detecção de objetos mais eficazes para diversas aplicações do mundo real.
1. Quais informações uma predição de bounding box normalmente contém?
2. Qual é a principal vantagem dos métodos baseados em âncoras na detecção de objetos?
3. Qual desafio a regressão direta enfrenta na previsão de caixas delimitadoras?
Obrigado pelo seu feedback!