Contenuti del Corso
Fondamenti di Computer Vision
Fondamenti di Computer Vision
Panoramica Dei Modelli Cnn Più Diffusi
Le reti neurali convoluzionali (CNN) si sono evolute notevolmente, con diverse architetture che hanno migliorato accuratezza, efficienza e scalabilità. Questo capitolo esplora cinque modelli chiave di CNN che hanno influenzato il deep learning: LeNet, AlexNet, VGGNet, ResNet e InceptionNet.
LeNet: La Fondazione delle CNN
Una delle prime architetture di reti neurali convoluzionali, proposta da Yann LeCun nel 1998 per il riconoscimento di cifre scritte a mano. Ha posto le basi per le CNN moderne introducendo componenti fondamentali come convoluzioni, pooling e strati completamente connessi. Puoi approfondire il modello nella documentazione.
Caratteristiche Principali dell'Architettura
AlexNet: Svolta nel Deep Learning
Un'architettura CNN fondamentale che ha vinto la competizione ImageNet nel 2012, AlexNet ha dimostrato che le reti neurali profonde a convoluzione possono superare significativamente i metodi tradizionali di machine learning nella classificazione di immagini su larga scala. Ha introdotto innovazioni che sono diventate standard nel deep learning moderno. Maggiori informazioni sul modello sono disponibili nella documentazione.
Caratteristiche principali dell'architettura
VGGNet: Reti più profonde con filtri uniformi
Sviluppata dal Visual Geometry Group di Oxford, VGGNet ha posto l'accento su profondità e semplicità utilizzando filtri convoluzionali uniformi 3×3. Ha dimostrato che l'accostamento di piccoli filtri in reti profonde può migliorare significativamente le prestazioni, portando a varianti ampiamente utilizzate come VGG-16 e VGG-19. Maggiori informazioni sul modello sono disponibili nella documentazione.
Caratteristiche chiave dell'architettura
ResNet: Risoluzione del problema della profondità
ResNet (Reti Residuali), introdotto da Microsoft nel 2015, ha affrontato il problema della scomparsa del gradiente, che si verifica durante l'addestramento di reti molto profonde. Le reti profonde tradizionali presentano difficoltà in termini di efficienza di addestramento e degrado delle prestazioni, ma ResNet ha superato questo problema grazie alle connessioni di salto (apprendimento residuale). Questi collegamenti consentono alle informazioni di bypassare determinati strati, garantendo che i gradienti continuino a propagarsi in modo efficace. Le architetture ResNet, come ResNet-50 e ResNet-101, hanno permesso l'addestramento di reti con centinaia di strati, migliorando significativamente l'accuratezza nella classificazione delle immagini. Puoi approfondire il modello nella documentazione.
Caratteristiche chiave dell'architettura
InceptionNet: Estrazione di Caratteristiche Multi-Scala
InceptionNet (conosciuto anche come GoogLeNet) si basa sul modulo inception per creare un'architettura profonda ma efficiente. Invece di sovrapporre i layer in modo sequenziale, InceptionNet utilizza percorsi paralleli per estrarre caratteristiche a diversi livelli. Puoi approfondire il modello nella documentazione.
Ottimizzazioni principali includono:
Convoluzioni fattorizzate per ridurre il costo computazionale;
Classificatori ausiliari negli strati intermedi per migliorare la stabilità dell'addestramento;
Global average pooling al posto dei layer completamente connessi, riducendo il numero di parametri mantenendo le prestazioni.
Questa struttura consente a InceptionNet di essere più profondo rispetto a precedenti CNN come VGG, senza aumentare drasticamente i requisiti computazionali.
Caratteristiche Principali dell'Architettura
Modulo Inception
Il modulo Inception è il componente principale di InceptionNet, progettato per catturare in modo efficiente caratteristiche a scale multiple. Invece di applicare una singola operazione di convoluzione, il modulo processa l'input con filtri di diverse dimensioni (1×1, 3×3, 5×5
) in parallelo. Questo permette alla rete di riconoscere sia dettagli fini che pattern di grandi dimensioni in un'immagine.
Per ridurre il costo computazionale, vengono utilizzate 1×1 convolutions
prima di applicare filtri più grandi. Queste riducendo il numero di canali in ingresso, rendendo la rete più efficiente. Inoltre, i layer di max pooling all'interno del modulo aiutano a mantenere le caratteristiche essenziali controllando la dimensionalità.
Esempio
Considerare un esempio per vedere come la riduzione delle dimensioni diminuisce il carico computazionale. Supponiamo di dover convolvere 28 × 28 × 192 input feature maps
con 5 × 5 × 32 filters
. Questa operazione richiederebbe circa 120,42 milioni di calcoli.
Eseguiamo nuovamente i calcoli, ma questa volta inseriamo uno strato di 1×1 convolutional layer
prima di applicare la 5×5 convolution
alle stesse mappe di caratteristiche in ingresso.
Ciascuna di queste architetture CNN ha svolto un ruolo fondamentale nell'avanzamento della computer vision, influenzando applicazioni in sanità, sistemi autonomi, sicurezza e elaborazione di immagini in tempo reale. Dai principi fondamentali di LeNet all'estrazione di caratteristiche multi-scala di InceptionNet, questi modelli hanno costantemente ampliato i confini del deep learning, aprendo la strada a architetture ancora più avanzate in futuro.
1. Qual è stata l'innovazione principale introdotta da ResNet che ha permesso di addestrare reti estremamente profonde?
2. In che modo InceptionNet migliora l'efficienza computazionale rispetto alle CNN tradizionali?
3. Quale architettura CNN ha introdotto per prima il concetto di utilizzo di piccoli filtri di convoluzione 3×3 in tutta la rete?
Grazie per i tuoi commenti!