Capas de Convolución
Desliza para mostrar el menú
Las capas de convolución son el núcleo de las redes neuronales convolucionales (CNNs). Aplican la convolución, donde una pequeña matriz llamada filtro (o kernel) se desliza sobre una imagen para detectar bordes, texturas y formas. Esto permite que las CNNs procesen imágenes de manera más eficiente que las redes tradicionales.
En lugar de analizar una imagen completa de una vez, las CNNs la dividen en secciones más pequeñas, detectando características en diferentes niveles. Las capas iniciales reconocen patrones simples como bordes, mientras que las capas más profundas detectan estructuras complejas.
Cómo funciona la convolución
La convolución implica que un filtro (kernel) se desplace sobre una imagen, siguiendo estos pasos:
- Aplicar el kernel en la esquina superior izquierda de la imagen;
- Realizar la multiplicación elemento a elemento entre el kernel y los valores de los píxeles;
- Sumar los productos para generar un píxel de salida;
- Mover el kernel según el stride y repetir;
- Generar un mapa de características que resalta los patrones detectados.
Múltiples filtros permiten que las CNN capturen diferentes características, como bordes verticales, curvas y texturas.
Filtros (Kernels):
Los filtros desempeñan un papel fundamental en la extracción de patrones significativos de las imágenes. Diferentes tipos de filtros se especializan en identificar diversas características:
- Filtros de detección de bordes: identifican los límites de los objetos al detectar cambios abruptos de intensidad (por ejemplo, filtros Sobel, Prewitt y Laplaciano);
- Filtros de textura: capturan patrones repetitivos como ondas o rejillas (por ejemplo, filtros Gabor);
- Filtros de realce: mejoran los detalles de la imagen al amplificar los componentes de alta frecuencia;
- Filtros de desenfoque: reducen el ruido y suavizan las imágenes (por ejemplo, filtro de desenfoque gaussiano);
- Filtros de relieve: resaltan los bordes y añaden un efecto 3D al enfatizar la profundidad.
Cada filtro se entrena para detectar patrones específicos y contribuye a construir representaciones jerárquicas de características en redes neuronales convolucionales profundas (CNN).
Las capas de convolución reutilizan el mismo filtro en toda la imagen, lo que reduce la cantidad de parámetros y hace que las CNN sean eficientes. Sin embargo, las capas localmente conectadas especializadas utilizan diferentes filtros para distintas regiones cuando es necesario.
Al apilar capas de convolución, las CNN extraen patrones detallados, lo que las hace potentes para clasificación de imágenes, detección de objetos y tareas de visión.
Hiperparámetros:
- Stride (desplazamiento): controla cuánto se mueve el filtro en cada paso;
- Padding (relleno): añade píxeles para controlar el tamaño de salida (el relleno "same" preserva el tamaño, el relleno "valid" lo reduce);
- Número de filtros (profundidad): más filtros mejoran la detección de características pero aumentan el cómputo.
Ejemplo: Para una imagen en escala de grises de 24×24 usando un kernel de 3×3 con 64 filters, el tamaño de salida es 22×22×64, calculado como:
Donde:
- W: ancho de la imagen de entrada = 24;
- H: alto de la imagen de entrada = 24;
- F: tamaño del filtro (kernel) = 3 (suponiendo un kernel cuadrado de 3×3);
- D: número de filtros (profundidad de la salida) = 64.
Antes del próximo capítulo
Aunque las capas convolucionales pueden disminuir el tamaño de salida, su propósito principal es la extracción de características, no la reducción de dimensionalidad. Las capas de agrupamiento (pooling), por otro lado, reducen explícitamente la dimensionalidad mientras retienen información importante, asegurando eficiencia en capas más profundas.
1. ¿Cuál es la función principal de una capa convolucional en una CNN?
2. ¿Qué hiperparámetro determina cuánto se desplaza un filtro durante la convolución?
3. ¿Cuál es el propósito de aplicar múltiples filtros en una capa de convolución?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla