Visão Geral dos Principais Modelos de CNN

Redes neurais convolucionais (CNNs) evoluíram significativamente, com diversas arquiteturas aprimorando precisão, eficiência e escalabilidade. Este capítulo explora cinco modelos principais de CNN que moldaram o aprendizado profundo: LeNet, AlexNet, VGGNet, ResNet e InceptionNet.

LeNet: A Fundação das CNNs

Uma das primeiras arquiteturas de redes neurais convolucionais, proposta por Yann LeCun em 1998 para reconhecimento de dígitos manuscritos. Estabeleceu as bases para as CNNs modernas ao introduzir componentes essenciais como convoluções, pooling e camadas totalmente conectadas. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

AlexNet: Avanço em Aprendizado Profundo

Uma arquitetura de CNN marcante que venceu a competição ImageNet de 2012, AlexNet demonstrou que redes convolucionais profundas poderiam superar significativamente métodos tradicionais de aprendizado de máquina para classificação de imagens em larga escala. Introduziu inovações que se tornaram padrão no aprendizado profundo moderno. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

VGGNet: Redes Profundas com Filtros Uniformes

Desenvolvida pelo Visual Geometry Group da Universidade de Oxford, a VGGNet destacou a profundidade e simplicidade ao utilizar filtros convolucionais uniformes de 3×3. Demonstrou que o empilhamento de pequenos filtros em redes profundas pode melhorar significativamente o desempenho, originando variantes amplamente utilizadas como VGG-16 e VGG-19. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

ResNet: Solução para o Problema de Profundidade

ResNet (Redes Residuais), introduzida pela Microsoft em 2015, abordou o problema do gradiente desaparecendo, que ocorre durante o treinamento de redes muito profundas. Redes profundas tradicionais apresentam dificuldades de eficiência de treinamento e degradação de desempenho, mas a ResNet superou essa questão com conexões de atalho (aprendizado residual). Esses atalhos permitem que a informação ignore certas camadas, garantindo que os gradientes continuem a se propagar de forma eficaz. Arquiteturas ResNet, como ResNet-50 e ResNet-101, possibilitaram o treinamento de redes com centenas de camadas, melhorando significativamente a precisão na classificação de imagens. Saiba mais sobre o modelo na documentação.

Principais Características da Arquitetura

InceptionNet: Extração de Características em Múltiplas Escalas

InceptionNet (também conhecida como GoogLeNet) baseia-se no módulo inception para criar uma arquitetura profunda e eficiente. Em vez de empilhar camadas de forma sequencial, a InceptionNet utiliza caminhos paralelos para extrair características em diferentes níveis. Mais informações sobre o modelo podem ser encontradas na documentação.

As principais otimizações incluem:

Convoluções fatoradas para reduzir o custo computacional;
Classificadores auxiliares em camadas intermediárias para melhorar a estabilidade do treinamento;
Pooling global médio em vez de camadas totalmente conectadas, reduzindo o número de parâmetros e mantendo o desempenho.

Essa estrutura permite que a InceptionNet seja mais profunda que CNNs anteriores como a VGG, sem aumentar drasticamente os requisitos computacionais.

Principais Características da Arquitetura

Módulo Inception

O módulo Inception é o componente central do InceptionNet, projetado para capturar características de forma eficiente em múltiplas escalas. Em vez de aplicar uma única operação de convolução, o módulo processa a entrada com múltiplos tamanhos de filtro (1×1, 3×3, 5×5) em paralelo. Isso permite que a rede reconheça tanto detalhes finos quanto padrões amplos em uma imagem.

Para reduzir o custo computacional, 1×1 convolutions são utilizadas antes da aplicação de filtros maiores. Essas reduzem o número de canais de entrada, tornando a rede mais eficiente. Além disso, camadas de max pooling dentro do módulo ajudam a reter características essenciais enquanto controlam a dimensionalidade.

Exemplo

Considere um exemplo para entender como a redução de dimensões diminui a carga computacional. Suponha que seja necessário convoluir 28 × 28 × 192 input feature maps com 5 × 5 × 32 filters. Essa operação exigiria aproximadamente 120,42 milhões de cálculos.

Nota

Number of operations = (2828192) * (5532) = 120,422,400 operations

Vamos realizar os cálculos novamente, mas desta vez, inserir uma 1×1 convolutional layer antes de aplicar a 5×5 convolution nos mesmos mapas de características de entrada.

Nota

Number of operations for 1x1 convolution = (2828192) * (1116) = 2,408,448 operations

Number of operations for 5x5 convolution = (282816) * (5532) = 10,035,200 operations

Total number of operations 2,408,448 + 10,035,200 = 12,443,648 operations

Cada uma dessas arquiteturas de CNN desempenhou um papel fundamental no avanço da visão computacional, influenciando aplicações em saúde, sistemas autônomos, segurança e processamento de imagens em tempo real. Desde os princípios fundamentais do LeNet até a extração de características em múltiplas escalas do InceptionNet, esses modelos têm expandido continuamente os limites do aprendizado profundo, abrindo caminho para arquiteturas ainda mais avançadas no futuro.

1. Qual foi a principal inovação introduzida pelo ResNet que permitiu treinar redes extremamente profundas?

2. Como o InceptionNet melhora a eficiência computacional em comparação com as CNNs tradicionais?

3. Qual arquitetura de CNN introduziu primeiro o conceito de utilizar pequenos filtros de convolução 3×3 em toda a rede?

Qual foi a principal inovação introduzida pelo ResNet que permitiu treinar redes extremamente profundas?

Select the correct answer

Uso de tamanhos grandes de kernel para convolução

Conexões de salto (aprendizado residual)

Adição de mais camadas totalmente conectadas

Uso apenas de convoluções 1×1

Como o InceptionNet melhora a eficiência computacional em comparação com as CNNs tradicionais?

Select the correct answer

Remoção de camadas de pooling para aumentar a profundidade

Uso apenas de filtros grandes para capturar mais características

Uso de convoluções 1×1 para reduzir o número de canais antes de aplicar filtros maiores

Substituição de funções de ativação por transformações lineares

Qual arquitetura de CNN introduziu primeiro o conceito de utilizar pequenos filtros de convolução 3×3 em toda a rede?

Select the correct answer

LeNet

AlexNet

VGGNet

InceptionNet

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the key architecture features of each CNN model?

What are the main differences between these CNN architectures?

How have these models impacted real-world applications?

Awesome!

Completion rate improved to 3.45

Visão Geral dos Principais Modelos de CNN

Deslize para mostrar o menu

LeNet: A Fundação das CNNs

Principais Características da Arquitetura

AlexNet: Avanço em Aprendizado Profundo

Principais Características da Arquitetura

VGGNet: Redes Profundas com Filtros Uniformes

Principais Características da Arquitetura

ResNet: Solução para o Problema de Profundidade

Principais Características da Arquitetura

InceptionNet: Extração de Características em Múltiplas Escalas

As principais otimizações incluem:

Convoluções fatoradas para reduzir o custo computacional;
Classificadores auxiliares em camadas intermediárias para melhorar a estabilidade do treinamento;
Pooling global médio em vez de camadas totalmente conectadas, reduzindo o número de parâmetros e mantendo o desempenho.

Essa estrutura permite que a InceptionNet seja mais profunda que CNNs anteriores como a VGG, sem aumentar drasticamente os requisitos computacionais.

Principais Características da Arquitetura

Módulo Inception

Exemplo

Nota

Number of operations = (2828192) * (5532) = 120,422,400 operations

Vamos realizar os cálculos novamente, mas desta vez, inserir uma 1×1 convolutional layer antes de aplicar a 5×5 convolution nos mesmos mapas de características de entrada.

Nota

Number of operations for 1x1 convolution = (2828192) * (1116) = 2,408,448 operations

Number of operations for 5x5 convolution = (282816) * (5532) = 10,035,200 operations

Total number of operations 2,408,448 + 10,035,200 = 12,443,648 operations

1. Qual foi a principal inovação introduzida pelo ResNet que permitiu treinar redes extremamente profundas?

2. Como o InceptionNet melhora a eficiência computacional em comparação com as CNNs tradicionais?

3. Qual arquitetura de CNN introduziu primeiro o conceito de utilizar pequenos filtros de convolução 3×3 em toda a rede?

Qual foi a principal inovação introduzida pelo ResNet que permitiu treinar redes extremamente profundas?

Select the correct answer

Uso de tamanhos grandes de kernel para convolução

Conexões de salto (aprendizado residual)

Adição de mais camadas totalmente conectadas

Uso apenas de convoluções 1×1

Como o InceptionNet melhora a eficiência computacional em comparação com as CNNs tradicionais?

Select the correct answer

Remoção de camadas de pooling para aumentar a profundidade

Uso apenas de filtros grandes para capturar mais características

Uso de convoluções 1×1 para reduzir o número de canais antes de aplicar filtros maiores

Substituição de funções de ativação por transformações lineares

Qual arquitetura de CNN introduziu primeiro o conceito de utilizar pequenos filtros de convolução 3×3 em toda a rede?

Select the correct answer

LeNet

AlexNet

VGGNet

InceptionNet

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6