Impara Strati di Convoluzione | Reti Neurali Convoluzionali

Scorri per mostrare il menu

Comprendere i Layer di Convoluzione

I layer di convoluzione sono il nucleo delle reti neurali convoluzionali (CNN). Applicano la convoluzione, in cui una piccola matrice chiamata filtro (o kernel) scorre su un'immagine per rilevare bordi, texture e forme. Questo consente alle CNN di elaborare le immagini in modo più efficiente rispetto alle reti tradizionali.

Invece di analizzare un'intera immagine in una sola volta, le CNN la suddividono in sezioni più piccole, rilevando caratteristiche a diversi livelli. I primi layer riconoscono schemi semplici come i bordi, mentre i layer più profondi rilevano strutture complesse.

Come Funziona la Convoluzione

La convoluzione prevede che un filtro (kernel) si muova su un'immagine, seguendo questi passaggi:

Applicare il kernel nell'angolo in alto a sinistra dell'immagine.
Eseguire la moltiplicazione elemento per elemento tra il kernel e i valori dei pixel.
Somma dei prodotti per generare un pixel di output.
Spostare il kernel secondo lo stride e ripetere.
Generare una feature map che evidenzia i pattern rilevati.

L'utilizzo di più filtri consente alle CNN di catturare diverse caratteristiche, come bordi verticali, curve e texture.

Filtri (Kernel):

I filtri svolgono un ruolo fondamentale nell'estrazione di pattern significativi dalle immagini. Diversi tipi di filtri sono specializzati nell'identificazione di varie caratteristiche:

Filtri per il rilevamento dei bordi: identificano i contorni degli oggetti rilevando bruschi cambiamenti di intensità (ad esempio, filtri Sobel, Prewitt e Laplaciano);
Filtri per la texture: catturano pattern ripetitivi come onde o griglie (ad esempio, filtri Gabor);
Filtri di nitidezza: migliorano i dettagli dell'immagine amplificando le componenti ad alta frequenza;
Filtri di sfocatura: riducono il rumore e rendono le immagini più uniformi (ad esempio, filtro di sfocatura gaussiana);
Filtri emboss: evidenziano i bordi e aggiungono un effetto 3D enfatizzando la profondità.

Ogni filtro viene addestrato per rilevare schemi specifici e contribuisce alla costruzione di rappresentazioni gerarchiche delle caratteristiche nelle CNN profonde.

I livelli di convoluzione riutilizzano lo stesso filtro su tutta l'immagine, riducendo i parametri e rendendo le CNN efficienti. Tuttavia, i livelli localmente connessi specializzati utilizzano filtri diversi per regioni differenti quando necessario.

Sovrapponendo più livelli di convoluzione, le CNN estraggono schemi dettagliati, rendendole potenti per la classificazione delle immagini, il rilevamento degli oggetti e le attività di visione.

Iperparametri:

Stride: controlla di quanto si sposta il filtro ad ogni passo;
Padding: aggiunge pixel per controllare la dimensione dell'output (il padding "same" preserva la dimensione, il padding "valid" la riduce);
Numero di filtri (profondità): più filtri migliorano il rilevamento delle caratteristiche ma aumentano il calcolo.

Nota

Example: For a 24×24 grayscale image using a 3×3 kernel with 64 filters, the output size is 22×22×64, computed as:

(W - F + 1) \times (H - F + 1) \times D =\\= (24 - 3 + 1) \times (24 - 3 + 1) \times 64 =\\= 22\times22\times64,

Where:

$W$ : width of the input image = 24;
$H$ : height of the input image = 24;
$F$ : size of the filter (kernel) = 3 (assuming a square 3×3 kernel);
$D$ : number of filters (depth of the output) = 64.

Prima del prossimo capitolo

Sebbene i layer convoluzionali possano ridurre la dimensione dell'output, il loro scopo principale è l'estrazione delle caratteristiche, non la riduzione della dimensionalità. I layer di pooling, invece, riducono esplicitamente la dimensionalità mantenendo le informazioni importanti, garantendo efficienza negli strati più profondi.