Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Visão Geral dos Principais Modelos de CNN | Redes Neurais Convolucionais
Fundamentos de Visão Computacional
course content

Conteúdo do Curso

Fundamentos de Visão Computacional

Fundamentos de Visão Computacional

1. Introdução à Visão Computacional
2. Processamento de Imagens com OpenCV
3. Redes Neurais Convolucionais
4. Detecção de Objetos
5. Visão Geral de Tópicos Avançados

book
Visão Geral dos Principais Modelos de CNN

Redes neurais convolucionais (CNNs) evoluíram significativamente, com diversas arquiteturas aprimorando precisão, eficiência e escalabilidade. Este capítulo explora cinco modelos fundamentais de CNNs que moldaram o deep learning: LeNet, AlexNet, VGGNet, ResNet e InceptionNet.

LeNet: A Fundação das CNNs

Uma das primeiras arquiteturas de redes neurais convolucionais, proposta por Yann LeCun em 1998 para reconhecimento de dígitos manuscritos. Estabeleceu as bases para as CNNs modernas ao introduzir componentes essenciais como convoluções, pooling e camadas totalmente conectadas. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

AlexNet: Avanço em Deep Learning

Uma arquitetura de CNN marcante que venceu a competição ImageNet de 2012, AlexNet demonstrou que redes convolucionais profundas poderiam superar significativamente métodos tradicionais de machine learning em classificação de imagens em larga escala. Introduziu inovações que se tornaram padrão no deep learning moderno. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

VGGNet: Redes Mais Profundas com Filtros Uniformes

Desenvolvida pelo Visual Geometry Group de Oxford, a VGGNet enfatizou profundidade e simplicidade ao utilizar filtros convolucionais uniformes de 3×3. Demonstrou que empilhar pequenos filtros em redes profundas poderia melhorar significativamente o desempenho, levando a variantes amplamente utilizadas como VGG-16 e VGG-19. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

ResNet: Solução para o Problema de Profundidade

ResNet (Redes Residuais), apresentada pela Microsoft em 2015, abordou o problema do gradiente desaparecendo, que ocorre durante o treinamento de redes muito profundas. Redes profundas tradicionais apresentam dificuldades de eficiência de treinamento e degradação de desempenho, mas a ResNet superou esse desafio com conexões de atalho (aprendizado residual). Esses atalhos permitem que informações ignorem certas camadas, garantindo que os gradientes continuem a se propagar de forma eficaz. Arquiteturas ResNet, como ResNet-50 e ResNet-101, possibilitaram o treinamento de redes com centenas de camadas, melhorando significativamente a precisão na classificação de imagens. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

InceptionNet: Extração de Características em Múltiplas Escalas

InceptionNet (também conhecida como GoogLeNet) baseia-se no módulo inception para criar uma arquitetura profunda e eficiente. Em vez de empilhar camadas de forma sequencial, a InceptionNet utiliza caminhos paralelos para extrair características em diferentes níveis. Mais informações sobre o modelo podem ser encontradas na documentação.

As principais otimizações incluem:

  • Convoluções fatorizadas para reduzir o custo computacional;

  • Classificadores auxiliares em camadas intermediárias para melhorar a estabilidade do treinamento;

  • Pooling global por média em vez de camadas totalmente conectadas, reduzindo o número de parâmetros e mantendo o desempenho.

Essa estrutura permite que a InceptionNet seja mais profunda que CNNs anteriores como a VGG, sem aumentar drasticamente os requisitos computacionais.

Principais Características da Arquitetura

Módulo Inception

O módulo Inception é o componente central da InceptionNet, projetado para capturar características de forma eficiente em múltiplas escalas. Em vez de aplicar uma única operação de convolução, o módulo processa a entrada com múltiplos tamanhos de filtro (1×1, 3×3, 5×5) em paralelo. Isso permite que a rede reconheça tanto detalhes finos quanto padrões amplos em uma imagem.

Para reduzir o custo computacional, 1×1 convolutions são utilizadas antes da aplicação de filtros maiores. Essas reduzem o número de canais de entrada, tornando a rede mais eficiente. Além disso, camadas de max pooling dentro do módulo ajudam a reter características essenciais enquanto controlam a dimensionalidade.

Exemplo

Considere um exemplo para entender como a redução de dimensões diminui a carga computacional. Suponha que seja necessário convoluir 28 × 28 × 192 input feature maps com 5 × 5 × 32 filters. Essa operação exigiria aproximadamente 120,42 milhões de cálculos.

Vamos realizar os cálculos novamente, mas desta vez, inserir uma 1×1 convolutional layer antes de aplicar a 5×5 convolution nos mesmos mapas de características de entrada.

Cada uma dessas arquiteturas de CNN desempenhou um papel fundamental no avanço da visão computacional, influenciando aplicações em saúde, sistemas autônomos, segurança e processamento de imagens em tempo real. Desde os princípios fundamentais do LeNet até a extração de características em múltiplas escalas do InceptionNet, esses modelos têm expandido continuamente os limites do deep learning, abrindo caminho para arquiteturas ainda mais avançadas no futuro.

1. Qual foi a principal inovação introduzida pela ResNet que permitiu o treinamento de redes extremamente profundas?

2. Como o InceptionNet melhora a eficiência computacional em comparação com CNNs tradicionais?

3. Qual arquitetura de CNN introduziu primeiro o conceito de usar pequenos filtros de convolução 3×3 em toda a rede?

question mark

Qual foi a principal inovação introduzida pela ResNet que permitiu o treinamento de redes extremamente profundas?

Select the correct answer

question mark

Como o InceptionNet melhora a eficiência computacional em comparação com CNNs tradicionais?

Select the correct answer

question mark

Qual arquitetura de CNN introduziu primeiro o conceito de usar pequenos filtros de convolução 3×3 em toda a rede?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

expand
ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Fundamentos de Visão Computacional

Fundamentos de Visão Computacional

1. Introdução à Visão Computacional
2. Processamento de Imagens com OpenCV
3. Redes Neurais Convolucionais
4. Detecção de Objetos
5. Visão Geral de Tópicos Avançados

book
Visão Geral dos Principais Modelos de CNN

Redes neurais convolucionais (CNNs) evoluíram significativamente, com diversas arquiteturas aprimorando precisão, eficiência e escalabilidade. Este capítulo explora cinco modelos fundamentais de CNNs que moldaram o deep learning: LeNet, AlexNet, VGGNet, ResNet e InceptionNet.

LeNet: A Fundação das CNNs

Uma das primeiras arquiteturas de redes neurais convolucionais, proposta por Yann LeCun em 1998 para reconhecimento de dígitos manuscritos. Estabeleceu as bases para as CNNs modernas ao introduzir componentes essenciais como convoluções, pooling e camadas totalmente conectadas. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

AlexNet: Avanço em Deep Learning

Uma arquitetura de CNN marcante que venceu a competição ImageNet de 2012, AlexNet demonstrou que redes convolucionais profundas poderiam superar significativamente métodos tradicionais de machine learning em classificação de imagens em larga escala. Introduziu inovações que se tornaram padrão no deep learning moderno. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

VGGNet: Redes Mais Profundas com Filtros Uniformes

Desenvolvida pelo Visual Geometry Group de Oxford, a VGGNet enfatizou profundidade e simplicidade ao utilizar filtros convolucionais uniformes de 3×3. Demonstrou que empilhar pequenos filtros em redes profundas poderia melhorar significativamente o desempenho, levando a variantes amplamente utilizadas como VGG-16 e VGG-19. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

ResNet: Solução para o Problema de Profundidade

ResNet (Redes Residuais), apresentada pela Microsoft em 2015, abordou o problema do gradiente desaparecendo, que ocorre durante o treinamento de redes muito profundas. Redes profundas tradicionais apresentam dificuldades de eficiência de treinamento e degradação de desempenho, mas a ResNet superou esse desafio com conexões de atalho (aprendizado residual). Esses atalhos permitem que informações ignorem certas camadas, garantindo que os gradientes continuem a se propagar de forma eficaz. Arquiteturas ResNet, como ResNet-50 e ResNet-101, possibilitaram o treinamento de redes com centenas de camadas, melhorando significativamente a precisão na classificação de imagens. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

InceptionNet: Extração de Características em Múltiplas Escalas

InceptionNet (também conhecida como GoogLeNet) baseia-se no módulo inception para criar uma arquitetura profunda e eficiente. Em vez de empilhar camadas de forma sequencial, a InceptionNet utiliza caminhos paralelos para extrair características em diferentes níveis. Mais informações sobre o modelo podem ser encontradas na documentação.

As principais otimizações incluem:

  • Convoluções fatorizadas para reduzir o custo computacional;

  • Classificadores auxiliares em camadas intermediárias para melhorar a estabilidade do treinamento;

  • Pooling global por média em vez de camadas totalmente conectadas, reduzindo o número de parâmetros e mantendo o desempenho.

Essa estrutura permite que a InceptionNet seja mais profunda que CNNs anteriores como a VGG, sem aumentar drasticamente os requisitos computacionais.

Principais Características da Arquitetura

Módulo Inception

O módulo Inception é o componente central da InceptionNet, projetado para capturar características de forma eficiente em múltiplas escalas. Em vez de aplicar uma única operação de convolução, o módulo processa a entrada com múltiplos tamanhos de filtro (1×1, 3×3, 5×5) em paralelo. Isso permite que a rede reconheça tanto detalhes finos quanto padrões amplos em uma imagem.

Para reduzir o custo computacional, 1×1 convolutions são utilizadas antes da aplicação de filtros maiores. Essas reduzem o número de canais de entrada, tornando a rede mais eficiente. Além disso, camadas de max pooling dentro do módulo ajudam a reter características essenciais enquanto controlam a dimensionalidade.

Exemplo

Considere um exemplo para entender como a redução de dimensões diminui a carga computacional. Suponha que seja necessário convoluir 28 × 28 × 192 input feature maps com 5 × 5 × 32 filters. Essa operação exigiria aproximadamente 120,42 milhões de cálculos.

Vamos realizar os cálculos novamente, mas desta vez, inserir uma 1×1 convolutional layer antes de aplicar a 5×5 convolution nos mesmos mapas de características de entrada.

Cada uma dessas arquiteturas de CNN desempenhou um papel fundamental no avanço da visão computacional, influenciando aplicações em saúde, sistemas autônomos, segurança e processamento de imagens em tempo real. Desde os princípios fundamentais do LeNet até a extração de características em múltiplas escalas do InceptionNet, esses modelos têm expandido continuamente os limites do deep learning, abrindo caminho para arquiteturas ainda mais avançadas no futuro.

1. Qual foi a principal inovação introduzida pela ResNet que permitiu o treinamento de redes extremamente profundas?

2. Como o InceptionNet melhora a eficiência computacional em comparação com CNNs tradicionais?

3. Qual arquitetura de CNN introduziu primeiro o conceito de usar pequenos filtros de convolução 3×3 em toda a rede?

question mark

Qual foi a principal inovação introduzida pela ResNet que permitiu o treinamento de redes extremamente profundas?

Select the correct answer

question mark

Como o InceptionNet melhora a eficiência computacional em comparação com CNNs tradicionais?

Select the correct answer

question mark

Qual arquitetura de CNN introduziu primeiro o conceito de usar pequenos filtros de convolução 3×3 em toda a rede?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6
Sentimos muito que algo saiu errado. O que aconteceu?
some-alt