Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Visão Geral do Modelo YOLO | Detecção de Objetos
Fundamentos de Visão Computacional
course content

Conteúdo do Curso

Fundamentos de Visão Computacional

Fundamentos de Visão Computacional

1. Introdução à Visão Computacional
2. Processamento de Imagens com OpenCV
3. Redes Neurais Convolucionais
4. Detecção de Objetos
5. Visão Geral de Tópicos Avançados

book
Visão Geral do Modelo YOLO

O algoritmo YOLO (You Only Look Once) é um modelo de detecção de objetos rápido e eficiente. Diferente de abordagens tradicionais como o R-CNN, que utilizam múltiplas etapas, o YOLO processa a imagem inteira em uma única passagem, tornando-o ideal para aplicações em tempo real.

Como o YOLO Difere das Abordagens R-CNN

Métodos tradicionais de detecção de objetos, como o R-CNN e suas variantes, utilizam um pipeline de duas etapas: primeiro gerando propostas de regiões, depois classificando cada região proposta. Embora eficaz, essa abordagem é computacionalmente custosa e reduz a velocidade de inferência, tornando-a menos adequada para aplicações em tempo real.

O YOLO (You Only Look Once) adota uma abordagem radicalmente diferente. Ele divide a imagem de entrada em uma grade e prevê caixas delimitadoras e probabilidades de classe para cada célula em uma única passagem direta. Esse design trata a detecção de objetos como um único problema de regressão, permitindo ao YOLO alcançar desempenho em tempo real.

Diferente dos métodos baseados em R-CNN, que focam apenas em regiões locais, o YOLO processa a imagem inteira de uma vez, possibilitando capturar informações contextuais globais. Isso resulta em melhor desempenho na detecção de múltiplos objetos ou objetos sobrepostos, mantendo alta velocidade e precisão.

Arquitetura do YOLO e Previsões Baseadas em Grade

O YOLO divide uma imagem de entrada em uma grade S × S, onde cada célula da grade é responsável por detectar objetos cujo centro está dentro dela. Cada célula prevê as coordenadas da caixa delimitadora (x, y, largura, altura), uma pontuação de confiança do objeto e probabilidades de classe. Como o YOLO processa a imagem inteira em uma única passagem direta, ele é altamente eficiente em comparação com modelos anteriores de detecção de objetos.

Função de Perda e Pontuações de Confiança de Classe

YOLO otimiza a precisão da detecção utilizando uma função de perda personalizada, que inclui:

  • Perda de localização: mede a precisão da caixa delimitadora;

  • Perda de confiança: garante que as previsões indiquem corretamente a presença de objetos;

  • Perda de classificação: avalia o quão bem a classe prevista corresponde à classe real.

Para melhorar os resultados, o YOLO aplica anchor boxes e supressão não máxima (NMS) para remover detecções redundantes.

Vantagens do YOLO: Equilíbrio entre Velocidade e Precisão

A principal vantagem do YOLO é a velocidade. Como a detecção ocorre em uma única passagem, o YOLO é muito mais rápido do que métodos baseados em R-CNN, tornando-o adequado para aplicações em tempo real, como condução autônoma e vigilância. No entanto, as primeiras versões do YOLO apresentavam dificuldades na detecção de objetos pequenos, aspecto aprimorado nas versões posteriores.

YOLO: Um Breve Histórico

YOLO, desenvolvido por Joseph Redmon e Ali Farhadi em 2015, transformou a detecção de objetos com seu processamento em passagem única.

  • YOLOv2 (2016): adicionou normalização em lote, anchor boxes e clusters de dimensão;

  • YOLOv3 (2018): introduziu um backbone mais eficiente, múltiplos anchors e pooling piramidal espacial;

  • YOLOv4 (2020): adicionou aumento de dados Mosaic, uma cabeça de detecção anchor-free e uma nova função de perda;

  • YOLOv5: aprimorou o desempenho com otimização de hiperparâmetros, rastreamento de experimentos e recursos automáticos de exportação;

  • YOLOv6 (2022): código aberto pela Meituan e utilizado em robôs autônomos de entrega;

  • YOLOv7: expandiu as capacidades para incluir estimativa de pose;

  • YOLOv8 (2023): melhorou velocidade, flexibilidade e eficiência para tarefas de IA de visão computacional;

  • YOLOv9: introduziu Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: desenvolvido pela Universidade de Tsinghua, eliminando a Non-Maximum Suppression (NMS) com uma cabeça de detecção End-to-End;

  • YOLOv11: o modelo mais recente, oferecendo desempenho de ponta em detecção de objetos, segmentação e classificação.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 7

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Fundamentos de Visão Computacional

Fundamentos de Visão Computacional

1. Introdução à Visão Computacional
2. Processamento de Imagens com OpenCV
3. Redes Neurais Convolucionais
4. Detecção de Objetos
5. Visão Geral de Tópicos Avançados

book
Visão Geral do Modelo YOLO

O algoritmo YOLO (You Only Look Once) é um modelo de detecção de objetos rápido e eficiente. Diferente de abordagens tradicionais como o R-CNN, que utilizam múltiplas etapas, o YOLO processa a imagem inteira em uma única passagem, tornando-o ideal para aplicações em tempo real.

Como o YOLO Difere das Abordagens R-CNN

Métodos tradicionais de detecção de objetos, como o R-CNN e suas variantes, utilizam um pipeline de duas etapas: primeiro gerando propostas de regiões, depois classificando cada região proposta. Embora eficaz, essa abordagem é computacionalmente custosa e reduz a velocidade de inferência, tornando-a menos adequada para aplicações em tempo real.

O YOLO (You Only Look Once) adota uma abordagem radicalmente diferente. Ele divide a imagem de entrada em uma grade e prevê caixas delimitadoras e probabilidades de classe para cada célula em uma única passagem direta. Esse design trata a detecção de objetos como um único problema de regressão, permitindo ao YOLO alcançar desempenho em tempo real.

Diferente dos métodos baseados em R-CNN, que focam apenas em regiões locais, o YOLO processa a imagem inteira de uma vez, possibilitando capturar informações contextuais globais. Isso resulta em melhor desempenho na detecção de múltiplos objetos ou objetos sobrepostos, mantendo alta velocidade e precisão.

Arquitetura do YOLO e Previsões Baseadas em Grade

O YOLO divide uma imagem de entrada em uma grade S × S, onde cada célula da grade é responsável por detectar objetos cujo centro está dentro dela. Cada célula prevê as coordenadas da caixa delimitadora (x, y, largura, altura), uma pontuação de confiança do objeto e probabilidades de classe. Como o YOLO processa a imagem inteira em uma única passagem direta, ele é altamente eficiente em comparação com modelos anteriores de detecção de objetos.

Função de Perda e Pontuações de Confiança de Classe

YOLO otimiza a precisão da detecção utilizando uma função de perda personalizada, que inclui:

  • Perda de localização: mede a precisão da caixa delimitadora;

  • Perda de confiança: garante que as previsões indiquem corretamente a presença de objetos;

  • Perda de classificação: avalia o quão bem a classe prevista corresponde à classe real.

Para melhorar os resultados, o YOLO aplica anchor boxes e supressão não máxima (NMS) para remover detecções redundantes.

Vantagens do YOLO: Equilíbrio entre Velocidade e Precisão

A principal vantagem do YOLO é a velocidade. Como a detecção ocorre em uma única passagem, o YOLO é muito mais rápido do que métodos baseados em R-CNN, tornando-o adequado para aplicações em tempo real, como condução autônoma e vigilância. No entanto, as primeiras versões do YOLO apresentavam dificuldades na detecção de objetos pequenos, aspecto aprimorado nas versões posteriores.

YOLO: Um Breve Histórico

YOLO, desenvolvido por Joseph Redmon e Ali Farhadi em 2015, transformou a detecção de objetos com seu processamento em passagem única.

  • YOLOv2 (2016): adicionou normalização em lote, anchor boxes e clusters de dimensão;

  • YOLOv3 (2018): introduziu um backbone mais eficiente, múltiplos anchors e pooling piramidal espacial;

  • YOLOv4 (2020): adicionou aumento de dados Mosaic, uma cabeça de detecção anchor-free e uma nova função de perda;

  • YOLOv5: aprimorou o desempenho com otimização de hiperparâmetros, rastreamento de experimentos e recursos automáticos de exportação;

  • YOLOv6 (2022): código aberto pela Meituan e utilizado em robôs autônomos de entrega;

  • YOLOv7: expandiu as capacidades para incluir estimativa de pose;

  • YOLOv8 (2023): melhorou velocidade, flexibilidade e eficiência para tarefas de IA de visão computacional;

  • YOLOv9: introduziu Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN);

  • YOLOv10: desenvolvido pela Universidade de Tsinghua, eliminando a Non-Maximum Suppression (NMS) com uma cabeça de detecção End-to-End;

  • YOLOv11: o modelo mais recente, oferecendo desempenho de ponta em detecção de objetos, segmentação e classificação.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 7
some-alt