Lære Konvolutionslag | Konvolutionelle Neurale Netværk

Computer Vision Essentials

Stryg for at vise menuen

Forståelse af konvolutionslag

Konvolutionslag udgør kernen i convolutional neural networks (CNNs). De anvender konvolution, hvor en lille matrix kaldet et filter (eller kernel) bevæger sig hen over et billede for at registrere kanter, teksturer og former. Dette gør det muligt for CNN'er at behandle billeder mere effektivt end traditionelle netværk.

I stedet for at analysere hele billedet på én gang, opdeler CNN'er det i mindre sektioner og registrerer træk på forskellige niveauer. Tidlige lag genkender simple mønstre som kanter, mens dybere lag identificerer komplekse strukturer.

Sådan fungerer konvolution

Konvolution indebærer, at et filter (kernel) bevæger sig hen over et billede og følger disse trin:

Anvend kernel øverst til venstre på billedet.
Udfør elementvis multiplikation mellem kernel og pixelværdier.
Summér produkterne for at generere en outputpixel.
Flyt kernel i henhold til stride og gentag.
Generér et feature map, der fremhæver de registrerede mønstre.

Flere filtre hjælper CNN'er med at opfange forskellige træk, såsom lodrette kanter, kurver og teksturer.

Filtre (Kerne):

Filtre spiller en afgørende rolle i udtrækning af meningsfulde mønstre fra billeder. Forskellige typer filtre specialiserer sig i at identificere forskellige træk:

Kantdetektionsfiltre: identificerer objektgrænser ved at opdage pludselige intensitetsændringer (f.eks. Sobel, Prewitt og Laplacian filtre);
Teksturfiltre: opfanger gentagne mønstre såsom bølger eller gitre (f.eks. Gabor filtre);
Skarphedsfiltre: forstærker billeddetaljer ved at forstærke højfrekvente komponenter;
Sløringsfiltre: reducerer støj og udglatter billeder (f.eks. Gaussisk sløringsfilter);
Emboss-filtre: fremhæver kanter og tilføjer en 3D-effekt ved at understrege dybde.

Hvert filter trænes til at detektere specifikke mønstre og bidrager til at opbygge hierarkiske funktionsrepræsentationer i dybe CNN'er.

Convolution-lag genbruger samme filter på tværs af et billede, hvilket reducerer antallet af parametre og gør CNN'er effektive. Specialiserede lokalt forbundne lag anvender dog forskellige filtre til forskellige områder, når det er nødvendigt.

Ved at stable convolution-lag kan CNN'er udtrække detaljerede mønstre, hvilket gør dem effektive til billedklassifikation, objektdetektion og vision-opgaver.

Hyperparametre:

Stride: styrer hvor langt filteret bevæger sig pr. trin;
Padding: tilføjer pixels for at kontrollere outputstørrelsen (samme padding bevarer størrelsen, valid padding reducerer den);
Antal filtre (dybde): flere filtre forbedrer funktionsdetektionen, men øger beregningen.

Bemærk

Example: For a 24×24 grayscale image using a 3×3 kernel with 64 filters, the output size is 22×22×64, computed as:

(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Where:

$W$ : width of the input image = 24;
$H$ : height of the input image = 24;
$F$ : size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
$D$ : number of filters (depth of the output) = 64.

Før næste kapitel

Selvom konvolutionslag kan formindske outputstørrelsen, er deres primære formål feature-ekstraktion, ikke dimensionsreduktion. Pooling-lag derimod reducerer eksplicit dimensionerne samtidig med, at vigtig information bevares, hvilket sikrer effektivitet i dybere lag.