Aprenda Camadas de Convolução | Redes Neurais Convolucionais

Deslize para mostrar o menu

Compreendendo as Camadas de Convolução

Camadas de convolução são o núcleo das redes neurais convolucionais (CNNs). Elas aplicam a convolução, onde uma pequena matriz chamada filtro (ou kernel) desliza sobre uma imagem para detectar bordas, texturas e formas. Isso permite que as CNNs processem imagens de forma mais eficiente do que redes tradicionais.

Em vez de analisar uma imagem inteira de uma vez, as CNNs a dividem em seções menores, detectando características em diferentes níveis. Camadas iniciais reconhecem padrões simples como bordas, enquanto camadas mais profundas detectam estruturas complexas.

Como a Convolução Funciona

A convolução envolve um filtro (kernel) movendo-se sobre uma imagem, seguindo estes passos:

Aplicar o kernel no canto superior esquerdo da imagem.
Realizar a multiplicação elemento a elemento entre o kernel e os valores dos pixels.
Somar os produtos para gerar um pixel de saída.
Mover o kernel de acordo com o stride e repetir.
Gerar um mapa de características que destaca os padrões detectados.

Múltiplos filtros permitem que as CNNs capturem diferentes características, como bordas verticais, curvas e texturas.

Filtros (Kernels):

Os filtros desempenham um papel fundamental na extração de padrões significativos das imagens. Diferentes tipos de filtros se especializam em identificar diversas características:

Filtros de detecção de bordas: identificam limites de objetos ao detectar mudanças abruptas de intensidade (por exemplo, filtros Sobel, Prewitt e Laplacian);
Filtros de textura: capturam padrões repetitivos como ondas ou grades (por exemplo, filtros Gabor);
Filtros de nitidez: realçam detalhes da imagem ao amplificar componentes de alta frequência;
Filtros de desfoque: reduzem ruídos e suavizam imagens (por exemplo, filtro de desfoque Gaussiano);
Filtros de relevo: destacam bordas e adicionam efeito 3D ao enfatizar profundidade.

Cada filtro é treinado para detectar padrões específicos e contribui para a construção de representações hierárquicas de características em CNNs profundas.

As camadas de convolução reutilizam o mesmo filtro em toda a imagem, reduzindo o número de parâmetros e tornando as CNNs eficientes. No entanto, camadas localmente conectadas especializadas utilizam filtros diferentes para diferentes regiões quando necessário.

Ao empilhar camadas de convolução, as CNNs extraem padrões detalhados, tornando-se poderosas para classificação de imagens, detecção de objetos e tarefas de visão computacional.

Hiperparâmetros:

Stride: controla o quanto o filtro se move a cada passo;
Padding: adiciona pixels para controlar o tamanho da saída (same padding preserva o tamanho, valid padding o reduz);
Número de filtros (profundidade): mais filtros melhoram a detecção de características, mas aumentam o custo computacional.

Nota

Exemplo: Para uma imagem em escala de cinza 24×24 usando um kernel 3×3 com 64 filters, o tamanho da saída é 22×22×64, calculado como:

(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Onde:

$W$ : width of the input image = 24;
$H$ : height of the input image = 24;
$F$ : size of the filter (kernel) = 3 (assumindo um kernel quadrado 3×3);
$D$ : number of filters (depth of the output) = 64.

Antes do próximo capítulo

Embora as camadas convolucionais possam diminuir o tamanho da saída, seu objetivo principal é a extração de características, não a redução de dimensionalidade. As camadas de pooling, por outro lado, reduzem explicitamente a dimensionalidade enquanto mantêm informações importantes, garantindo eficiência nas camadas mais profundas.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 3. Capítulo 2

Camadas de Convolução

Compreendendo as Camadas de Convolução

Como a Convolução Funciona

Filtros (Kernels):

Hiperparâmetros:

Antes do próximo capítulo

1. Qual é o papel principal de uma camada convolucional em uma CNN?

2. Qual hiperparâmetro determina o quanto um filtro se move durante a convolução?

3. Qual é o objetivo de aplicar múltiplos filtros em uma camada de convolução?