Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Camadas de Convolução | Redes Neurais Convolucionais
Fundamentos de Visão Computacional

bookCamadas de Convolução

Compreendendo as Camadas de Convolução

Camadas de convolução são o núcleo das redes neurais convolucionais (CNNs). Elas aplicam a convolução, onde uma pequena matriz chamada filtro (ou kernel) desliza sobre uma imagem para detectar bordas, texturas e formas. Isso permite que as CNNs processem imagens de forma mais eficiente do que redes tradicionais.

Em vez de analisar uma imagem inteira de uma vez, as CNNs a dividem em seções menores, detectando características em diferentes níveis. Camadas iniciais reconhecem padrões simples como bordas, enquanto camadas mais profundas detectam estruturas complexas.

Como a Convolução Funciona

A convolução envolve um filtro (kernel) movendo-se sobre uma imagem, seguindo estes passos:

  1. Aplicar o kernel no canto superior esquerdo da imagem.
  2. Realizar a multiplicação elemento a elemento entre o kernel e os valores dos pixels.
  3. Somar os produtos para gerar um pixel de saída.
  4. Mover o kernel de acordo com o stride e repetir.
  5. Gerar um mapa de características que destaca os padrões detectados.
GIF de Convolução

Múltiplos filtros permitem que as CNNs capturem diferentes características, como bordas verticais, curvas e texturas.

Filtros (Kernels):

Os filtros desempenham um papel fundamental na extração de padrões significativos das imagens. Diferentes tipos de filtros se especializam na identificação de diversas características:

  • Filtros de detecção de bordas: identificam limites de objetos ao detectar mudanças abruptas de intensidade (por exemplo, filtros Sobel, Prewitt e Laplacian);

  • Filtros de textura: capturam padrões repetitivos como ondas ou grades (por exemplo, filtros Gabor);

  • Filtros de nitidez: realçam detalhes da imagem ao amplificar componentes de alta frequência;

  • Filtros de desfoque: reduzem ruídos e suavizam imagens (por exemplo, filtro de desfoque Gaussiano);

  • Filtros de relevo: destacam bordas e adicionam efeito 3D ao enfatizar profundidade.

Comparação de Kernels

Cada filtro é treinado para detectar padrões específicos e contribui para a construção de representações hierárquicas de características em CNNs profundas.

As camadas de convolução reutilizam o mesmo filtro em toda a imagem, reduzindo o número de parâmetros e tornando as CNNs eficientes. No entanto, camadas localmente conectadas especializadas utilizam filtros diferentes para diferentes regiões quando necessário.

Ao empilhar camadas de convolução, as CNNs extraem padrões detalhados, tornando-se poderosas para classificação de imagens, detecção de objetos e tarefas de visão computacional.

Hiperparâmetros:

  • Stride: controla o quanto o filtro se desloca a cada passo;
  • Padding: adiciona pixels para controlar o tamanho da saída (same padding preserva o tamanho, valid padding reduz);
  • Número de filtros (profundidade): mais filtros melhoram a detecção de características, mas aumentam o custo computacional.
Note
Nota

Example: For a 24×24 grayscale image using a 3×3 kernel with 64 filters, the output size is 22×22×64, computed as:

(WF+1)×(HF+1)×D==(243+1)×(243+1)×64==22×22×64,(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Where:

  • WW: width of the input image = 24;
  • HH: height of the input image = 24;
  • FF: size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
  • DD: number of filters (depth of the output) = 64.

Antes do próximo capítulo

Embora as camadas convolucionais possam diminuir o tamanho da saída, seu objetivo principal é a extração de características, não a redução de dimensionalidade. As camadas de pooling, por outro lado, reduzem explicitamente a dimensionalidade enquanto mantêm informações importantes, garantindo eficiência nas camadas mais profundas.

1. Qual é a principal função de uma camada convolucional em uma CNN?

2. Qual hiperparâmetro determina o quanto um filtro se move durante a convolução?

3. Qual é o objetivo de aplicar múltiplos filtros em uma camada de convolução?

question mark

Qual é a principal função de uma camada convolucional em uma CNN?

Select the correct answer

question mark

Qual hiperparâmetro determina o quanto um filtro se move durante a convolução?

Select the correct answer

question mark

Qual é o objetivo de aplicar múltiplos filtros em uma camada de convolução?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 3.45

bookCamadas de Convolução

Deslize para mostrar o menu

Compreendendo as Camadas de Convolução

Camadas de convolução são o núcleo das redes neurais convolucionais (CNNs). Elas aplicam a convolução, onde uma pequena matriz chamada filtro (ou kernel) desliza sobre uma imagem para detectar bordas, texturas e formas. Isso permite que as CNNs processem imagens de forma mais eficiente do que redes tradicionais.

Em vez de analisar uma imagem inteira de uma vez, as CNNs a dividem em seções menores, detectando características em diferentes níveis. Camadas iniciais reconhecem padrões simples como bordas, enquanto camadas mais profundas detectam estruturas complexas.

Como a Convolução Funciona

A convolução envolve um filtro (kernel) movendo-se sobre uma imagem, seguindo estes passos:

  1. Aplicar o kernel no canto superior esquerdo da imagem.
  2. Realizar a multiplicação elemento a elemento entre o kernel e os valores dos pixels.
  3. Somar os produtos para gerar um pixel de saída.
  4. Mover o kernel de acordo com o stride e repetir.
  5. Gerar um mapa de características que destaca os padrões detectados.
GIF de Convolução

Múltiplos filtros permitem que as CNNs capturem diferentes características, como bordas verticais, curvas e texturas.

Filtros (Kernels):

Os filtros desempenham um papel fundamental na extração de padrões significativos das imagens. Diferentes tipos de filtros se especializam na identificação de diversas características:

  • Filtros de detecção de bordas: identificam limites de objetos ao detectar mudanças abruptas de intensidade (por exemplo, filtros Sobel, Prewitt e Laplacian);

  • Filtros de textura: capturam padrões repetitivos como ondas ou grades (por exemplo, filtros Gabor);

  • Filtros de nitidez: realçam detalhes da imagem ao amplificar componentes de alta frequência;

  • Filtros de desfoque: reduzem ruídos e suavizam imagens (por exemplo, filtro de desfoque Gaussiano);

  • Filtros de relevo: destacam bordas e adicionam efeito 3D ao enfatizar profundidade.

Comparação de Kernels

Cada filtro é treinado para detectar padrões específicos e contribui para a construção de representações hierárquicas de características em CNNs profundas.

As camadas de convolução reutilizam o mesmo filtro em toda a imagem, reduzindo o número de parâmetros e tornando as CNNs eficientes. No entanto, camadas localmente conectadas especializadas utilizam filtros diferentes para diferentes regiões quando necessário.

Ao empilhar camadas de convolução, as CNNs extraem padrões detalhados, tornando-se poderosas para classificação de imagens, detecção de objetos e tarefas de visão computacional.

Hiperparâmetros:

  • Stride: controla o quanto o filtro se desloca a cada passo;
  • Padding: adiciona pixels para controlar o tamanho da saída (same padding preserva o tamanho, valid padding reduz);
  • Número de filtros (profundidade): mais filtros melhoram a detecção de características, mas aumentam o custo computacional.
Note
Nota

Example: For a 24×24 grayscale image using a 3×3 kernel with 64 filters, the output size is 22×22×64, computed as:

(WF+1)×(HF+1)×D==(243+1)×(243+1)×64==22×22×64,(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Where:

  • WW: width of the input image = 24;
  • HH: height of the input image = 24;
  • FF: size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
  • DD: number of filters (depth of the output) = 64.

Antes do próximo capítulo

Embora as camadas convolucionais possam diminuir o tamanho da saída, seu objetivo principal é a extração de características, não a redução de dimensionalidade. As camadas de pooling, por outro lado, reduzem explicitamente a dimensionalidade enquanto mantêm informações importantes, garantindo eficiência nas camadas mais profundas.

1. Qual é a principal função de uma camada convolucional em uma CNN?

2. Qual hiperparâmetro determina o quanto um filtro se move durante a convolução?

3. Qual é o objetivo de aplicar múltiplos filtros em uma camada de convolução?

question mark

Qual é a principal função de uma camada convolucional em uma CNN?

Select the correct answer

question mark

Qual hiperparâmetro determina o quanto um filtro se move durante a convolução?

Select the correct answer

question mark

Qual é o objetivo de aplicar múltiplos filtros em uma camada de convolução?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2
some-alt