Capas de Convolución
Desliza para mostrar el menú
Comprensión de las capas de convolución
Las capas de convolución son el núcleo de las redes neuronales convolucionales (CNNs). Aplican la convolución, donde una pequeña matriz llamada filtro (o kernel) se desliza sobre una imagen para detectar bordes, texturas y formas. Esto permite que las CNNs procesen imágenes de manera más eficiente que las redes tradicionales.
En lugar de analizar toda la imagen de una vez, las CNNs la dividen en secciones más pequeñas, detectando características en diferentes niveles. Las capas iniciales reconocen patrones simples como bordes, mientras que las capas más profundas detectan estructuras complejas.
Cómo funciona la convolución
La convolución implica que un filtro (kernel) se desplace sobre una imagen, siguiendo estos pasos:
- Aplicar el kernel en la esquina superior izquierda de la imagen.
- Realizar la multiplicación elemento a elemento entre el kernel y los valores de los píxeles.
- Sumar los productos para generar un píxel de salida.
- Mover el kernel según el stride y repetir.
- Generar un mapa de características que resalta los patrones detectados.
Varios filtros permiten que las CNN capturen diferentes características, como bordes verticales, curvas y texturas.
Filtros (Kernels):
Los filtros desempeñan un papel fundamental en la extracción de patrones significativos de las imágenes. Diferentes tipos de filtros se especializan en identificar diversas características:
-
Filtros de detección de bordes: identifican los límites de los objetos detectando cambios bruscos de intensidad (por ejemplo, filtros Sobel, Prewitt y Laplaciano);
-
Filtros de textura: capturan patrones repetitivos como ondas o rejillas (por ejemplo, filtros Gabor);
-
Filtros de realce: mejoran los detalles de la imagen amplificando los componentes de alta frecuencia;
-
Filtros de desenfoque: reducen el ruido y suavizan las imágenes (por ejemplo, filtro de desenfoque gaussiano);
-
Filtros de relieve: resaltan los bordes y añaden un efecto 3D al enfatizar la profundidad.
Cada filtro se entrena para detectar patrones específicos y contribuye a construir representaciones jerárquicas de características en redes neuronales convolucionales profundas.
Las capas de convolución reutilizan el mismo filtro en toda la imagen, lo que reduce la cantidad de parámetros y hace que las CNN sean eficientes. Sin embargo, las capas localmente conectadas especializadas utilizan filtros diferentes para distintas regiones cuando es necesario.
Al apilar capas de convolución, las CNN extraen patrones detallados, lo que las hace potentes para clasificación de imágenes, detección de objetos y tareas de visión.
Hiperparámetros:
- Stride: controla cuánto se desplaza el filtro en cada paso;
- Padding: añade píxeles para controlar el tamaño de salida (el padding "same" preserva el tamaño, el padding "valid" lo reduce);
- Número de filtros (profundidad): más filtros mejoran la detección de características pero incrementan el cómputo.
Ejemplo: Para una imagen en escala de grises de 24×24 usando un kernel de 3×3 con 64 filters, el tamaño de salida es 22×22×64, calculado como:
Donde:
- W: width of the input image = 24;
- H: height of the input image = 24;
- F: size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
- D: number of filters (depth of the output) = 64.
Antes del próximo capítulo
Aunque las capas convolucionales pueden disminuir el tamaño de salida, su propósito principal es la extracción de características, no la reducción de dimensionalidad. Las capas de pooling, en cambio, reducen explícitamente la dimensionalidad mientras retienen información importante, asegurando eficiencia en capas más profundas.
1. ¿Cuál es la función principal de una capa convolucional en una CNN?
2. ¿Qué hiperparámetro determina cuánto se desplaza un filtro durante la convolución?
3. ¿Cuál es el propósito de aplicar múltiples filtros en una capa de convolución?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla