Kursinnhold
Grunnleggende Datamaskinsyn
Grunnleggende Datamaskinsyn
Utflating
Overgang fra funksjonsekstraksjon til klassifisering
Etter at konvolusjons- og pooling-lag har ekstrahert essensielle funksjoner fra et bilde, er neste steg i et konvolusjonelt nevralt nettverk (CNN) klassifisering. Siden fullt tilkoblede lag krever en endimensjonal input, må vi konvertere de flerdimensjonale funksjonskartene til et format som er egnet for klassifisering.
Konvertering av funksjonskart til en 1D-vektor
Flattening er prosessen der utdataene fra konvolusjons- og pooling-lag omformes til én lang vektor. Hvis et funksjonskart har dimensjonene X × Y × Z
, vil flattening omforme det til et 1D array
med lengde X × Y × Z
.
For eksempel, hvis det siste funksjonskartet har dimensjonene 7 × 7 × 64
, vil flattening konvertere det til en (7 × 7 × 64) = 3136-dimensional
vektor. Dette gjør det mulig for de fullt tilkoblede lagene å behandle de ekstraherte funksjonene effektivt.
Viktigheten av flattening før input til fullt tilkoblede lag
Fullt tilkoblede lag opererer på en standard struktur for nevrale nettverk, der hver nevron er koblet til hver nevron i neste lag. Uten flattening kan ikke modellen tolke den romlige strukturen til funksjonskartene korrekt. Flattening sikrer:
Riktig overgang fra funksjonsdeteksjon til klassifisering;
Sømløs integrasjon med fullt tilkoblede lag;
Effektiv læring ved å bevare ekstraherte mønstre for endelig beslutningstaking.
Ved å flate ut funksjonskartene kan CNN-er utnytte høynivåfunksjoner lært under konvolusjon og pooling, noe som muliggjør nøyaktig klassifisering av objekter i et bilde.
1. Hvorfor er flattening nødvendig i et CNN?
2. Hvis et feature map har dimensjonene 10 × 10 × 32, hva blir størrelsen på det flattenede outputet?
Takk for tilbakemeldingene dine!