Огляд Популярних Моделей CNN

Згорткові нейронні мережі (CNN) суттєво еволюціонували, і різні архітектури підвищили точність, ефективність та масштабованість. У цьому розділі розглядаються п’ять ключових моделей CNN, які вплинули на розвиток глибокого навчання: LeNet, AlexNet, VGGNet, ResNet та InceptionNet.

LeNet: Основа CNN

Одна з перших архітектур згорткових нейронних мереж, запропонована Яном ЛеКуном у 1998 році для розпізнавання рукописних цифр. Вона заклала основу сучасних CNN, впровадивши ключові компоненти, такі як згортки, підвибірки та повнозв’язані шари. Детальніше про модель можна дізнатися у документації.

Основні архітектурні особливості

AlexNet: Прорив у глибокому навчанні

Знакова архітектура згорткової нейронної мережі, яка перемогла у змаганні ImageNet 2012 року. AlexNet довела, що глибокі згорткові мережі можуть суттєво перевершувати традиційні методи машинного навчання для класифікації зображень у великих масштабах. Вона запровадила інновації, які стали стандартом у сучасному глибокому навчанні. Докладніше про модель можна дізнатися у документації.

Основні особливості архітектури

VGGNet: Глибші мережі з уніфікованими фільтрами

Розроблена групою Visual Geometry Group з Оксфорда, VGGNet підкреслює глибину та простоту завдяки використанню уніфікованих 3×3 згорткових фільтрів. Модель продемонструвала, що послідовне застосування невеликих фільтрів у глибоких мережах може суттєво підвищити продуктивність, що призвело до широкого використання таких варіантів, як VGG-16 та VGG-19. Детальніше про модель можна дізнатися у документації.

Основні архітектурні особливості

ResNet: вирішення проблеми глибини

ResNet (Residual Networks), представлена Microsoft у 2015 році, вирішила проблему зникнення градієнта, яка виникає під час навчання дуже глибоких мереж. Традиційні глибокі мережі стикаються з труднощами ефективності навчання та погіршенням продуктивності, але ResNet подолала цю проблему завдяки пропускам з'єднань (residual learning). Ці шорткати дозволяють інформації обходити певні шари, забезпечуючи ефективне поширення градієнтів. Архітектури ResNet, такі як ResNet-50 та ResNet-101, дали змогу навчати мережі з сотнями шарів, значно підвищуючи точність класифікації зображень. Докладніше про модель можна дізнатися у документації.

Основні особливості архітектури

InceptionNet: багаторівневе вилучення ознак

InceptionNet (також відома як GoogLeNet) базується на inception-модулі для створення глибокої, але ефективної архітектури. Замість послідовного розташування шарів, InceptionNet використовує паралельні гілки для вилучення ознак на різних рівнях. Докладніше про модель можна дізнатися у документації.

Основні оптимізації:

Факторизовані згортки для зменшення обчислювальних витрат;
Допоміжні класифікатори на проміжних шарах для підвищення стабільності навчання;
Глобальний середній пулінг замість повнозв'язних шарів, що зменшує кількість параметрів при збереженні продуктивності.

Така структура дозволяє InceptionNet бути глибшою за попередні CNN, такі як VGG, без значного збільшення обчислювальних ресурсів.

Основні особливості архітектури

Модуль Inception

Модуль Inception є основним компонентом InceptionNet, розробленим для ефективного захоплення ознак на різних масштабах. Замість застосування однієї операції згортки, модуль обробляє вхідні дані з використанням декількох розмірів фільтрів (1×1, 3×3, 5×5) паралельно. Це дозволяє мережі розпізнавати як дрібні деталі, так і великі шаблони на зображенні.

Для зменшення обчислювальних витрат використовуються 1×1 convolutions перед застосуванням більших фільтрів. Вони зменшують кількість вхідних каналів, підвищуючи ефективність мережі. Додатково, шари максимального пулінгу в модулі допомагають зберігати важливі ознаки та контролювати розмірність.

Приклад

Розглянемо приклад, щоб побачити, як зменшення розмірності знижує обчислювальне навантаження. Припустимо, потрібно виконати згортку 28 × 28 × 192 input feature maps з 5 × 5 × 32 filters. Ця операція вимагатиме приблизно 120,42 мільйона обчислень.

Примітка

Number of operations = (2828192) * (5532) = 120,422,400 operations

Виконаємо обчислення ще раз, але цього разу додамо 1×1 convolutional layer перед застосуванням 5×5 convolution до тих самих карт ознак на вході.

Примітка

Number of operations for 1x1 convolution = (2828192) * (1116) = 2.408.448 operations

Number of operations for 5x5 convolution = (282816) * (5532) = 10.035.200 operations

Total number of operations 2.408.448 + 10.035.200 = 12.443.648 operations

Кожна з цих архітектур CNN відіграла ключову роль у розвитку комп'ютерного зору, впливаючи на застосування у медицині, автономних системах, безпеці та обробці зображень у реальному часі. Від фундаментальних принципів LeNet до багатомасштабного вилучення ознак у InceptionNet, ці моделі постійно розширювали межі глибинного навчання, прокладаючи шлях до ще більш досконалих архітектур у майбутньому.

1. Яке основне нововведення було впроваджено в ResNet, що дозволило навчати надзвичайно глибокі мережі?

2. Як InceptionNet підвищує обчислювальну ефективність порівняно з традиційними CNN?

3. Яка архітектура CNN вперше запровадила концепцію використання малих 3×3 згорткових фільтрів упродовж усієї мережі?

Яке основне нововведення було впроваджено в ResNet, що дозволило навчати надзвичайно глибокі мережі?

Select the correct answer

Використання великих розмірів ядер для згортки

Пропускні з'єднання (residual learning)

Додавання більшої кількості повнозв'язних шарів

Використання лише 1×1 згорток

Як InceptionNet підвищує обчислювальну ефективність порівняно з традиційними CNN?

Select the correct answer

Видалення шарів пулінгу для збільшення глибини

Використання лише великих фільтрів для вилучення більшої кількості ознак

Використання 1×1 згорток для зменшення кількості каналів перед застосуванням більших фільтрів

Заміна функцій активації на лінійні перетворення

Яка архітектура CNN вперше запровадила концепцію використання малих 3×3 згорткових фільтрів упродовж усієї мережі?

Select the correct answer

LeNet

AlexNet

VGGNet

InceptionNet

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 3.45

Огляд Популярних Моделей CNN

Свайпніть щоб показати меню

LeNet: Основа CNN

Основні архітектурні особливості

AlexNet: Прорив у глибокому навчанні

Основні особливості архітектури

VGGNet: Глибші мережі з уніфікованими фільтрами

Основні архітектурні особливості

ResNet: вирішення проблеми глибини

Основні особливості архітектури

InceptionNet: багаторівневе вилучення ознак

Основні оптимізації:

Факторизовані згортки для зменшення обчислювальних витрат;
Допоміжні класифікатори на проміжних шарах для підвищення стабільності навчання;
Глобальний середній пулінг замість повнозв'язних шарів, що зменшує кількість параметрів при збереженні продуктивності.

Основні особливості архітектури

Модуль Inception

Приклад

Примітка

Number of operations = (2828192) * (5532) = 120,422,400 operations

Примітка

Number of operations for 1x1 convolution = (2828192) * (1116) = 2.408.448 operations

Number of operations for 5x5 convolution = (282816) * (5532) = 10.035.200 operations

Total number of operations 2.408.448 + 10.035.200 = 12.443.648 operations

1. Яке основне нововведення було впроваджено в ResNet, що дозволило навчати надзвичайно глибокі мережі?

2. Як InceptionNet підвищує обчислювальну ефективність порівняно з традиційними CNN?

3. Яка архітектура CNN вперше запровадила концепцію використання малих 3×3 згорткових фільтрів упродовж усієї мережі?

Яке основне нововведення було впроваджено в ResNet, що дозволило навчати надзвичайно глибокі мережі?

Select the correct answer

Використання великих розмірів ядер для згортки

Пропускні з'єднання (residual learning)

Додавання більшої кількості повнозв'язних шарів

Використання лише 1×1 згорток

Як InceptionNet підвищує обчислювальну ефективність порівняно з традиційними CNN?

Select the correct answer

Видалення шарів пулінгу для збільшення глибини

Використання лише великих фільтрів для вилучення більшої кількості ознак

Використання 1×1 згорток для зменшення кількості каналів перед застосуванням більших фільтрів

Заміна функцій активації на лінійні перетворення

Select the correct answer

LeNet

AlexNet

VGGNet

InceptionNet

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 6