Kursusindhold
Computer Vision Grundlæggende
Computer Vision Grundlæggende
Udfladning
Overgang fra feature-ekstraktion til klassificering
Efter at konvolutions- og poolinglag har udtrukket væsentlige træk fra et billede, er det næste trin i et convolutional neural network (CNN) klassificering. Da fuldt forbundne lag kræver et endimensionelt input, skal de multidimensionelle feature maps omdannes til et format, der egner sig til klassificering.
Konvertering af feature maps til en 1D-vektor
Flattening er processen, hvor outputtet fra konvolutions- og poolinglag omformes til én lang vektor. Hvis et feature map har dimensionerne X × Y × Z
, omdanner flattening det til et 1D array
med længden X × Y × Z
.
For eksempel, hvis det endelige feature map har dimensionerne 7 × 7 × 64
, konverterer flattening det til en (7 × 7 × 64) = 3136-dimensional
vektor. Dette gør det muligt for de fuldt forbundne lag at behandle de udtrukne træk effektivt.
Vigtigheden af flattening før input til fuldt forbundne lag
Fuldt forbundne lag fungerer ud fra en standard neural netværksstruktur, hvor hver neuron er forbundet til hver neuron i det næste lag. Uden flattening kan modellen ikke fortolke den rumlige struktur i feature maps korrekt. Flattening sikrer:
Korrekt overgang fra feature-detektion til klassificering;
Problemfri integration med fuldt forbundne lag;
Effektiv læring ved at bevare udtrukne mønstre til den endelige beslutningstagning.
Ved at flatten feature maps kan CNN'er udnytte de høj-niveau træk, der er lært under konvolution og pooling, hvilket muliggør præcis klassificering af objekter i et billede.
1. Hvorfor er flattening nødvendig i et CNN?
2. Hvis et feature map har dimensionerne 10 × 10 × 32, hvad vil størrelsen på det fladgjorte output være?
Tak for dine kommentarer!