Зміст курсу
Основи Комп'ютерного Зору
Основи Комп'ютерного Зору
Огляд популярних моделей CNN
Згорткові нейронні мережі (CNN) суттєво еволюціонували, і різноманітні архітектури підвищили точність, ефективність та масштабованість. У цьому розділі розглядаються п’ять ключових моделей CNN, які вплинули на розвиток глибокого навчання: LeNet, AlexNet, VGGNet, ResNet та InceptionNet.
LeNet: Основа CNN
Одна з перших архітектур згорткових нейронних мереж, запропонована Яном ЛеКуном у 1998 році для розпізнавання рукописних цифр. Вона заклала основу сучасних CNN, впровадивши ключові компоненти, такі як згортки, пулінг та повнозв’язані шари. Детальніше про модель можна дізнатися у документації.
Основні архітектурні особливості
AlexNet: Прорив у глибокому навчанні
Знакова архітектура згорткової нейронної мережі, яка перемогла у конкурсі ImageNet 2012 року. AlexNet довела, що глибокі згорткові мережі можуть суттєво перевершувати традиційні методи машинного навчання для класифікації зображень у великому масштабі. Вона запровадила інновації, які стали стандартом у сучасному глибокому навчанні. Детальніше про модель можна дізнатися у документації.
Основні архітектурні особливості
VGGNet: Глибші мережі з уніфікованими фільтрами
Розроблена групою Visual Geometry Group в Оксфорді, VGGNet підкреслює глибину та простоту завдяки використанню уніфікованих згорткових фільтрів 3×3. Мережа показала, що послідовне застосування малих фільтрів у глибоких мережах може суттєво підвищити продуктивність, що призвело до появи широко використовуваних варіантів, таких як VGG-16 та VGG-19. Детальніше про модель можна дізнатися у документації.
Ключові особливості архітектури
ResNet: вирішення проблеми глибини
ResNet (Residual Networks), представлена Microsoft у 2015 році, вирішила проблему зникнення градієнта, яка виникає під час навчання дуже глибоких мереж. Традиційні глибокі мережі стикаються з труднощами ефективності навчання та погіршенням продуктивності, але ResNet подолала цю проблему завдяки пропускам з'єднань (residual learning). Ці скорочені шляхи дозволяють інформації обходити певні шари, забезпечуючи ефективне поширення градієнтів. Архітектури ResNet, такі як ResNet-50 та ResNet-101, дали змогу навчати мережі з сотнями шарів, значно підвищуючи точність класифікації зображень. Докладніше про модель можна дізнатися у документації.
Ключові особливості архітектури
InceptionNet: Багатомасштабне вилучення ознак
InceptionNet (також відома як GoogLeNet) базується на inception-модулі для створення глибокої, але ефективної архітектури. Замість послідовного розташування шарів, InceptionNet використовує паралельні шляхи для вилучення ознак на різних рівнях. Докладніше про модель можна дізнатися у документації.
Основні оптимізації:
Факторизовані згортки для зменшення обчислювальних витрат;
Допоміжні класифікатори на проміжних шарах для підвищення стабільності навчання;
Глобальний середній пулінг замість повнозв'язних шарів, що зменшує кількість параметрів при збереженні продуктивності.
Така структура дозволяє InceptionNet бути глибшою за попередні CNN, такі як VGG, без значного збільшення обчислювальних вимог.
Основні особливості архітектури
Inception-модуль
Inception-модуль є основним компонентом InceptionNet, розробленим для ефективного вилучення ознак на різних масштабах. Замість застосування однієї операції згортки, модуль обробляє вхідні дані з використанням декількох розмірів фільтрів (1×1, 3×3, 5×5
) паралельно. Це дозволяє мережі розпізнавати як дрібні деталі, так і великі патерни на зображенні.
Для зменшення обчислювальних витрат використовуються 1×1 convolutions
перед застосуванням більших фільтрів. Вони зменшують кількість вхідних каналів, підвищуючи ефективність мережі. Додатково, шари максимального пулінгу в модулі допомагають зберігати важливі ознаки та контролювати розмірність.
Приклад
Розглянемо приклад, щоб побачити, як зменшення розмірності знижує обчислювальне навантаження. Припустимо, необхідно виконати згортку 28 × 28 × 192 input feature maps
з 5 × 5 × 32 filters
. Ця операція вимагатиме приблизно 120,42 мільйона обчислень.
Виконаємо обчислення ще раз, але цього разу додамо 1×1 convolutional layer
перед застосуванням 5×5 convolution
до тих самих вхідних карт ознак.
Кожна з цих архітектур CNN відіграла ключову роль у розвитку комп'ютерного зору, вплинувши на застосування у медицині, автономних системах, безпеці та обробці зображень у реальному часі. Від базових принципів LeNet до багатомасштабного вилучення ознак у InceptionNet, ці моделі постійно розширювали межі глибинного навчання, прокладаючи шлях до ще більш досконалих архітектур у майбутньому.
1. Яке основне нововведення було впроваджено в ResNet, що дозволило навчати надзвичайно глибокі мережі?
2. Як InceptionNet підвищує обчислювальну ефективність порівняно з традиційними CNN?
3. Яка архітектура CNN вперше впровадила концепцію використання малих 3×3 згорткових фільтрів по всій мережі?
Дякуємо за ваш відгук!