Lernen Pooling-Schichten | Convolutional Neural Networks

Grundlagen der Computer Vision

Swipe um das Menü anzuzeigen

Zweck des Poolings

Pooling-Schichten spielen eine entscheidende Rolle in Convolutional Neural Networks (CNNs), indem sie die räumlichen Dimensionen von Feature-Maps reduzieren und gleichzeitig wesentliche Informationen beibehalten. Dies unterstützt:

Dimensionsreduktion: Verringerung der Rechenkomplexität und des Speicherbedarfs;
Merkmalsbewahrung: Erhalt der relevantesten Details für nachfolgende Schichten;
Überanpassungsvermeidung: Reduzierung des Risikos, Rauschen und irrelevante Details zu erfassen;
Translationsinvarianz: Erhöhung der Robustheit des Netzwerks gegenüber Variationen der Objektpositionen innerhalb eines Bildes.

Arten des Poolings

Pooling-Schichten arbeiten, indem sie ein kleines Fenster über die Feature-Maps bewegen und Werte auf unterschiedliche Weise aggregieren. Die wichtigsten Arten des Poolings sind:

Max-Pooling

Wählt den maximalen Wert aus dem Fenster aus;
Bewahrt dominante Merkmale und verwirft kleinere Variationen;
Wird häufig verwendet, da es scharfe und markante Kanten erhält.

Average Pooling

Berechnet den Durchschnittswert innerhalb des Fensters;
Sorgt für eine geglättete Feature-Map durch Reduzierung extremer Schwankungen;
Wird seltener als Max-Pooling verwendet, ist aber in bestimmten Anwendungen wie der Objekterkennung vorteilhaft.

Globales Pooling

Anstelle eines kleinen Fensters wird über die gesamte Feature-Map gepoolt;
Es gibt zwei Arten von globalem Pooling:
- Globales Max-Pooling: Nimmt den Maximalwert über die gesamte Feature-Map;
- Globales Durchschnitts-Pooling: Berechnet den Durchschnitt aller Werte in der Feature-Map.
Häufig in vollständig konvolutionalen Netzwerken für Klassifizierungsaufgaben verwendet.

Hinweis

Beim Pooling wird kein Kernel auf die Eingangsdaten angewendet, sondern die Informationen werden durch eine mathematische Operation (Max oder Durchschnitt) vereinfacht.

Vorteile des Poolings in CNNs

Pooling verbessert die Leistung von CNNs auf verschiedene Weise:

Translationsinvarianz: Kleine Verschiebungen in einem Bild verändern die Ausgabe nicht drastisch, da das Pooling sich auf die wichtigsten Merkmale konzentriert;
Reduzierung von Overfitting: Vereinfacht Merkmalskarten und verhindert übermäßiges Auswendiglernen der Trainingsdaten;
Verbesserte Recheneffizienz: Die Verkleinerung der Merkmalskarten beschleunigt die Verarbeitung und reduziert den Speicherbedarf.

Pooling-Schichten sind ein grundlegender Bestandteil von CNN-Architekturen und stellen sicher, dass Netzwerke bedeutungsvolle Informationen extrahieren und gleichzeitig Effizienz und Generalisierungsfähigkeit bewahren.