Lära Konvolutionslager | Konvolutionella Neurala Nätverk

Grunder i Datorseende

Svep för att visa menyn

Förståelse av konvolutionslager

Konvolutionslager utgör kärnan i konvolutionella neurala nätverk (CNN). De utför konvolution, där en liten matris kallad filter (eller kärna) glider över en bild för att identifiera kanter, texturer och former. Detta gör att CNN kan bearbeta bilder mer effektivt än traditionella nätverk.

Istället för att analysera en hel bild på en gång, delar CNN upp den i mindre sektioner och identifierar egenskaper på olika nivåer. Tidiga lager känner igen enkla mönster som kanter, medan djupare lager identifierar komplexa strukturer.

Hur konvolution fungerar

Konvolution innebär att ett filter (kärna) rör sig över en bild enligt följande steg:

Applicera kärnan i det övre vänstra hörnet av bilden.
Utför elementvis multiplikation mellan kärnan och pixelvärdena.
Summera produkterna för att generera en utgångspixel.
Flytta kärnan enligt steget och upprepa.
Generera en funktionskarta som framhäver identifierade mönster.

Flera filter hjälper CNN:er att fånga olika egenskaper, såsom vertikala kanter, kurvor och texturer.

Filter (Kärnor):

Filter spelar en avgörande roll i att extrahera meningsfulla mönster från bilder. Olika typer av filter är specialiserade på att identifiera olika egenskaper:

Kantdetekteringsfilter: identifierar objektgränser genom att upptäcka plötsliga intensitetsförändringar (t.ex. Sobel-, Prewitt- och Laplacian-filter);
Texturfilter: fångar upprepade mönster såsom vågor eller rutnät (t.ex. Gabor-filter);
Skärpningsfilter: förstärker bilddetaljer genom att öka högfrekventa komponenter;
Suddningsfilter: minskar brus och jämnar ut bilder (t.ex. Gaussisk suddning);
Relieffilter: framhäver kanter och lägger till en 3D-effekt genom att betona djup.

Varje filter tränas för att upptäcka specifika mönster och bidrar till att bygga hierarkiska funktionsrepresentationer i djupa CNN-modeller.

Konvolutionslager återanvänder samma filter över en bild, vilket minskar antalet parametrar och gör CNN:er effektiva. Specialiserade lokalt anslutna lager använder dock olika filter för olika regioner vid behov.

Genom att stapla konvolutionslager extraherar CNN:er detaljerade mönster, vilket gör dem kraftfulla för bildklassificering, objektdetektering och visuella uppgifter.

Hyperparametrar:

Steglängd (Stride): styr hur långt filtret förflyttas per steg;
Utfyllnad (Padding): lägger till pixlar för att kontrollera utdata-storlek (same padding bevarar storleken, valid padding minskar den);
Antal filter (djup): fler filter förbättrar funktionsdetektering men ökar beräkningen.

Notering

Example: For a 24×24 grayscale image using a 3×3 kernel with 64 filters, the output size is 22×22×64, computed as:

(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Where:

$W$ : width of the input image = 24;
$H$ : height of the input image = 24;
$F$ : size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
$D$ : number of filters (depth of the output) = 64.

Innan nästa kapitel

Även om konvolutionslager kan minska utdata-storleken, är deras huvudsakliga syfte funktionsutvinning, inte dimensionsreduktion. Poolinglager däremot, minskar uttryckligen dimensionerna samtidigt som viktig information bevaras, vilket säkerställer effektivitet i djupare lager.