Conteúdo do Curso
Fundamentos de Visão Computacional
Fundamentos de Visão Computacional
Visão Geral dos Principais Modelos de CNN
Redes neurais convolucionais (CNNs) evoluíram significativamente, com diversas arquiteturas aprimorando precisão, eficiência e escalabilidade. Este capítulo explora cinco modelos fundamentais de CNNs que moldaram o deep learning: LeNet, AlexNet, VGGNet, ResNet e InceptionNet.
LeNet: A Fundação das CNNs
Uma das primeiras arquiteturas de redes neurais convolucionais, proposta por Yann LeCun em 1998 para reconhecimento de dígitos manuscritos. Estabeleceu as bases para as CNNs modernas ao introduzir componentes essenciais como convoluções, pooling e camadas totalmente conectadas. Saiba mais sobre o modelo na documentação.
Principais Características da Arquitetura
AlexNet: Avanço em Deep Learning
Uma arquitetura de CNN marcante que venceu a competição ImageNet de 2012, AlexNet demonstrou que redes convolucionais profundas poderiam superar significativamente métodos tradicionais de machine learning em classificação de imagens em larga escala. Introduziu inovações que se tornaram padrão no deep learning moderno. Saiba mais sobre o modelo na documentação.
Principais Características da Arquitetura
VGGNet: Redes Mais Profundas com Filtros Uniformes
Desenvolvida pelo Visual Geometry Group de Oxford, a VGGNet enfatizou profundidade e simplicidade ao utilizar filtros convolucionais uniformes de 3×3. Demonstrou que empilhar pequenos filtros em redes profundas poderia melhorar significativamente o desempenho, levando a variantes amplamente utilizadas como VGG-16 e VGG-19. Saiba mais sobre o modelo na documentação.
Principais Características da Arquitetura
ResNet: Solução para o Problema de Profundidade
ResNet (Redes Residuais), apresentada pela Microsoft em 2015, abordou o problema do gradiente desaparecendo, que ocorre durante o treinamento de redes muito profundas. Redes profundas tradicionais apresentam dificuldades de eficiência de treinamento e degradação de desempenho, mas a ResNet superou esse desafio com conexões de atalho (aprendizado residual). Esses atalhos permitem que informações ignorem certas camadas, garantindo que os gradientes continuem a se propagar de forma eficaz. Arquiteturas ResNet, como ResNet-50 e ResNet-101, possibilitaram o treinamento de redes com centenas de camadas, melhorando significativamente a precisão na classificação de imagens. Saiba mais sobre o modelo na documentação.
Principais Características da Arquitetura
InceptionNet: Extração de Características em Múltiplas Escalas
InceptionNet (também conhecida como GoogLeNet) baseia-se no módulo inception para criar uma arquitetura profunda e eficiente. Em vez de empilhar camadas de forma sequencial, a InceptionNet utiliza caminhos paralelos para extrair características em diferentes níveis. Mais informações sobre o modelo podem ser encontradas na documentação.
As principais otimizações incluem:
Convoluções fatorizadas para reduzir o custo computacional;
Classificadores auxiliares em camadas intermediárias para melhorar a estabilidade do treinamento;
Pooling global por média em vez de camadas totalmente conectadas, reduzindo o número de parâmetros e mantendo o desempenho.
Essa estrutura permite que a InceptionNet seja mais profunda que CNNs anteriores como a VGG, sem aumentar drasticamente os requisitos computacionais.
Principais Características da Arquitetura
Módulo Inception
O módulo Inception é o componente central da InceptionNet, projetado para capturar características de forma eficiente em múltiplas escalas. Em vez de aplicar uma única operação de convolução, o módulo processa a entrada com múltiplos tamanhos de filtro (1×1, 3×3, 5×5
) em paralelo. Isso permite que a rede reconheça tanto detalhes finos quanto padrões amplos em uma imagem.
Para reduzir o custo computacional, 1×1 convolutions
são utilizadas antes da aplicação de filtros maiores. Essas reduzem o número de canais de entrada, tornando a rede mais eficiente. Além disso, camadas de max pooling dentro do módulo ajudam a reter características essenciais enquanto controlam a dimensionalidade.
Exemplo
Considere um exemplo para entender como a redução de dimensões diminui a carga computacional. Suponha que seja necessário convoluir 28 × 28 × 192 input feature maps
com 5 × 5 × 32 filters
. Essa operação exigiria aproximadamente 120,42 milhões de cálculos.
Vamos realizar os cálculos novamente, mas desta vez, inserir uma 1×1 convolutional layer
antes de aplicar a 5×5 convolution
nos mesmos mapas de características de entrada.
Cada uma dessas arquiteturas de CNN desempenhou um papel fundamental no avanço da visão computacional, influenciando aplicações em saúde, sistemas autônomos, segurança e processamento de imagens em tempo real. Desde os princípios fundamentais do LeNet até a extração de características em múltiplas escalas do InceptionNet, esses modelos têm expandido continuamente os limites do deep learning, abrindo caminho para arquiteturas ainda mais avançadas no futuro.
1. Qual foi a principal inovação introduzida pela ResNet que permitiu o treinamento de redes extremamente profundas?
2. Como o InceptionNet melhora a eficiência computacional em comparação com CNNs tradicionais?
3. Qual arquitetura de CNN introduziu primeiro o conceito de usar pequenos filtros de convolução 3×3 em toda a rede?
Obrigado pelo seu feedback!