Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Faltungsschichten | Convolutional Neural Networks
Grundlagen der Computer Vision

bookFaltungsschichten

Verständnis von Convolution-Schichten

Convolution-Schichten bilden das Kernstück von Convolutional Neural Networks (CNNs). Sie führen eine Faltung durch, bei der eine kleine Matrix, genannt Filter (oder Kernel), über ein Bild gleitet, um Kanten, Texturen und Formen zu erkennen. Dies ermöglicht es CNNs, Bilder effizienter zu verarbeiten als herkömmliche Netzwerke.

Anstatt ein gesamtes Bild auf einmal zu analysieren, teilen CNNs es in kleinere Abschnitte auf und erkennen Merkmale auf verschiedenen Ebenen. Frühe Schichten erkennen einfache Muster wie Kanten, während tiefere Schichten komplexe Strukturen erfassen.

Funktionsweise der Faltung

Die Faltung beinhaltet das Verschieben eines Filters (Kernels) über ein Bild und umfasst folgende Schritte:

  1. Anwendung des Kernels in der oberen linken Ecke des Bildes.
  2. Elementweise Multiplikation zwischen Kernel und Pixelwerten.
  3. Summieren der Produkte zur Erzeugung eines Ausgabepixels.
  4. Verschieben des Kernels entsprechend dem Stride und Wiederholung des Vorgangs.
  5. Erzeugung einer Feature-Map, die erkannte Muster hervorhebt.
Convolution GIF

Mehrere Filter ermöglichen es CNNs, verschiedene Merkmale wie vertikale Kanten, Kurven und Texturen zu erfassen.

Filter (Kerne):

Filter spielen eine entscheidende Rolle bei der Extraktion bedeutungsvoller Muster aus Bildern. Verschiedene Filtertypen sind auf die Erkennung unterschiedlicher Merkmale spezialisiert:

  • Kantenerkennungsfilter: Erkennen Objektgrenzen durch das Aufspüren abrupter Intensitätsänderungen (z. B. Sobel-, Prewitt- und Laplace-Filter);

  • Texturfilter: Erfassen sich wiederholende Muster wie Wellen oder Gitter (z. B. Gabor-Filter);

  • Schärfungsfilter: Verstärken Bilddetails durch die Betonung hochfrequenter Komponenten;

  • Weichzeichnungsfilter: Reduzieren Rauschen und glätten Bilder (z. B. Gaußscher Weichzeichner);

  • Relief-Filter: Heben Kanten hervor und erzeugen einen 3D-Effekt durch Betonung der Tiefe.

Kerne im Vergleich

Jeder Filter wird darauf trainiert, spezifische Muster zu erkennen, und trägt zum Aufbau hierarchischer Merkmalsrepräsentationen in tiefen CNNs bei.

Faltungsschichten verwenden denselben Filter über das gesamte Bild, wodurch die Anzahl der Parameter reduziert und CNNs effizient werden. Spezialisierte lokal verbundene Schichten hingegen nutzen verschiedene Filter für unterschiedliche Bildbereiche, wenn dies erforderlich ist.

Durch das Stapeln von Faltungsschichten extrahieren CNNs detaillierte Muster und sind dadurch leistungsstark für Bildklassifikation, Objekterkennung und Aufgaben der maschinellen Bildverarbeitung.

Hyperparameter:

  • Stride: bestimmt, wie weit der Filter pro Schritt verschoben wird;
  • Padding: fügt Pixel hinzu, um die Ausgabengröße zu steuern ("same padding" erhält die Größe, "valid padding" verringert sie);
  • Anzahl der Filter (Tiefe): mehr Filter verbessern die Merkmalsextraktion, erhöhen jedoch den Rechenaufwand.
Note
Hinweis

Example: For a 24×24 grayscale image using a 3×3 kernel with 64 filters, the output size is 22×22×64, computed as:

(WF+1)×(HF+1)×D==(243+1)×(243+1)×64==22×22×64,(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Where:

  • WW: width of the input image = 24;
  • HH: height of the input image = 24;
  • FF: size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
  • DD: number of filters (depth of the output) = 64.

Vor dem nächsten Kapitel

Obwohl Faltungsschichten die Ausgabegröße verringern können, besteht ihr Hauptzweck in der Merkmalextraktion und nicht in der Dimensionsreduktion. Pooling-Schichten hingegen reduzieren explizit die Dimensionalität, während wichtige Informationen erhalten bleiben, was die Effizienz in tieferen Schichten gewährleistet.

1. Was ist die Hauptaufgabe einer Faltungsschicht in einem CNN?

2. Welcher Hyperparameter bestimmt, wie weit sich ein Filter während der Faltung bewegt?

3. Was ist der Zweck der Anwendung mehrerer Filter in einer Faltungsschicht?

question mark

Was ist die Hauptaufgabe einer Faltungsschicht in einem CNN?

Select the correct answer

question mark

Welcher Hyperparameter bestimmt, wie weit sich ein Filter während der Faltung bewegt?

Select the correct answer

question mark

Was ist der Zweck der Anwendung mehrerer Filter in einer Faltungsschicht?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how pooling layers work in CNNs?

What is the difference between convolution and pooling layers?

Can you give examples of how different filters affect an image?

Awesome!

Completion rate improved to 3.45

bookFaltungsschichten

Swipe um das Menü anzuzeigen

Verständnis von Convolution-Schichten

Convolution-Schichten bilden das Kernstück von Convolutional Neural Networks (CNNs). Sie führen eine Faltung durch, bei der eine kleine Matrix, genannt Filter (oder Kernel), über ein Bild gleitet, um Kanten, Texturen und Formen zu erkennen. Dies ermöglicht es CNNs, Bilder effizienter zu verarbeiten als herkömmliche Netzwerke.

Anstatt ein gesamtes Bild auf einmal zu analysieren, teilen CNNs es in kleinere Abschnitte auf und erkennen Merkmale auf verschiedenen Ebenen. Frühe Schichten erkennen einfache Muster wie Kanten, während tiefere Schichten komplexe Strukturen erfassen.

Funktionsweise der Faltung

Die Faltung beinhaltet das Verschieben eines Filters (Kernels) über ein Bild und umfasst folgende Schritte:

  1. Anwendung des Kernels in der oberen linken Ecke des Bildes.
  2. Elementweise Multiplikation zwischen Kernel und Pixelwerten.
  3. Summieren der Produkte zur Erzeugung eines Ausgabepixels.
  4. Verschieben des Kernels entsprechend dem Stride und Wiederholung des Vorgangs.
  5. Erzeugung einer Feature-Map, die erkannte Muster hervorhebt.
Convolution GIF

Mehrere Filter ermöglichen es CNNs, verschiedene Merkmale wie vertikale Kanten, Kurven und Texturen zu erfassen.

Filter (Kerne):

Filter spielen eine entscheidende Rolle bei der Extraktion bedeutungsvoller Muster aus Bildern. Verschiedene Filtertypen sind auf die Erkennung unterschiedlicher Merkmale spezialisiert:

  • Kantenerkennungsfilter: Erkennen Objektgrenzen durch das Aufspüren abrupter Intensitätsänderungen (z. B. Sobel-, Prewitt- und Laplace-Filter);

  • Texturfilter: Erfassen sich wiederholende Muster wie Wellen oder Gitter (z. B. Gabor-Filter);

  • Schärfungsfilter: Verstärken Bilddetails durch die Betonung hochfrequenter Komponenten;

  • Weichzeichnungsfilter: Reduzieren Rauschen und glätten Bilder (z. B. Gaußscher Weichzeichner);

  • Relief-Filter: Heben Kanten hervor und erzeugen einen 3D-Effekt durch Betonung der Tiefe.

Kerne im Vergleich

Jeder Filter wird darauf trainiert, spezifische Muster zu erkennen, und trägt zum Aufbau hierarchischer Merkmalsrepräsentationen in tiefen CNNs bei.

Faltungsschichten verwenden denselben Filter über das gesamte Bild, wodurch die Anzahl der Parameter reduziert und CNNs effizient werden. Spezialisierte lokal verbundene Schichten hingegen nutzen verschiedene Filter für unterschiedliche Bildbereiche, wenn dies erforderlich ist.

Durch das Stapeln von Faltungsschichten extrahieren CNNs detaillierte Muster und sind dadurch leistungsstark für Bildklassifikation, Objekterkennung und Aufgaben der maschinellen Bildverarbeitung.

Hyperparameter:

  • Stride: bestimmt, wie weit der Filter pro Schritt verschoben wird;
  • Padding: fügt Pixel hinzu, um die Ausgabengröße zu steuern ("same padding" erhält die Größe, "valid padding" verringert sie);
  • Anzahl der Filter (Tiefe): mehr Filter verbessern die Merkmalsextraktion, erhöhen jedoch den Rechenaufwand.
Note
Hinweis

Example: For a 24×24 grayscale image using a 3×3 kernel with 64 filters, the output size is 22×22×64, computed as:

(WF+1)×(HF+1)×D==(243+1)×(243+1)×64==22×22×64,(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Where:

  • WW: width of the input image = 24;
  • HH: height of the input image = 24;
  • FF: size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
  • DD: number of filters (depth of the output) = 64.

Vor dem nächsten Kapitel

Obwohl Faltungsschichten die Ausgabegröße verringern können, besteht ihr Hauptzweck in der Merkmalextraktion und nicht in der Dimensionsreduktion. Pooling-Schichten hingegen reduzieren explizit die Dimensionalität, während wichtige Informationen erhalten bleiben, was die Effizienz in tieferen Schichten gewährleistet.

1. Was ist die Hauptaufgabe einer Faltungsschicht in einem CNN?

2. Welcher Hyperparameter bestimmt, wie weit sich ein Filter während der Faltung bewegt?

3. Was ist der Zweck der Anwendung mehrerer Filter in einer Faltungsschicht?

question mark

Was ist die Hauptaufgabe einer Faltungsschicht in einem CNN?

Select the correct answer

question mark

Welcher Hyperparameter bestimmt, wie weit sich ein Filter während der Faltung bewegt?

Select the correct answer

question mark

Was ist der Zweck der Anwendung mehrerer Filter in einer Faltungsschicht?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2
some-alt