Зміст курсу
Основи Комп'ютерного Зору
Основи Комп'ютерного Зору
Прогнозування Обмежувальних Рамок
Обмежувальні рамки є ключовими для виявлення об'єктів, забезпечуючи спосіб позначення їхнього розташування. Моделі для виявлення об'єктів використовують ці рамки для визначення позиції та розмірів виявлених об'єктів на зображенні. Точне передбачення обмежувальних рамок є основою для надійного виявлення об'єктів.
Як CNN прогнозують координати обмежувальних рамок
Згорткові нейронні мережі (CNN) обробляють зображення через шари згорток і пулінгу для виділення ознак. Для задачі виявлення об'єктів CNN створюють карти ознак, які відображають різні частини зображення. Прогнозування обмежувальних рамок зазвичай здійснюється шляхом:
Виділення ознак із зображення;
Застосування регресійної функції для прогнозування координат рамки;
Класифікації виявлених об'єктів у кожній рамці.
Прогнози обмежувальних рамок подаються у вигляді числових значень, що відповідають:
(x, y): координати центру рамки;
(w, h): ширина та висота рамки.
Приклад: прогнозування обмежувальних рамок із використанням попередньо навченої моделі
Замість навчання CNN з нуля можна використати попередньо навчену модель, таку як Faster R-CNN із TensorFlow model zoo, для прогнозування обмежувальних рамок на зображенні. Нижче наведено приклад завантаження попередньо навченої моделі, завантаження зображення, здійснення прогнозу та візуалізації обмежувальних рамок із класовими мітками.
Імпорт бібліотек
Завантаження моделі та зображення
Попередня обробка зображення
Здійснення передбачення та виділення ознак обмежувальних рамок
Побудова обмежувальних рамок
Візуалізація
Результат:
Регресійне прогнозування обмежувальних рамок
Одним із підходів до прогнозування обмежувальних рамок є пряма регресія, коли згорткова нейронна мережа (CNN) видає чотири числові значення, що визначають положення та розмір рамки. Моделі, такі як YOLO (You Only Look Once), використовують цю техніку, розділяючи зображення на сітку та призначаючи прогнозування обмежувальних рамок клітинкам сітки.
Однак пряма регресія має обмеження:
Важко працює з об'єктами різних розмірів і співвідношень сторін;
Неефективно обробляє перекриваючі об'єкти;
Обмежувальні рамки можуть зміщуватися непередбачувано, що призводить до непослідовності.
Якірні та без'якірні підходи
Якірні методи
Якірні рамки — це заздалегідь визначені обмежувальні рамки з фіксованими розмірами та співвідношеннями сторін. Моделі, такі як Faster R-CNN і SSD (Single Shot MultiBox Detector), використовують якірні рамки для підвищення точності прогнозування. Модель прогнозує коригування до якірних рамок, а не створює обмежувальні рамки з нуля. Цей метод добре підходить для виявлення об'єктів різних масштабів, але збільшує обчислювальну складність.
Anchor-Free методи
Anchor-free методи, такі як CenterNet та FCOS (Fully Convolutional One-Stage Object Detection), усувають необхідність у попередньо визначених anchor box і натомість напряму прогнозують центри об'єктів. Ці методи забезпечують:
Простішу архітектуру моделей;
Вищу швидкість інференсу;
Кращу здатність до узагальнення на невідомі розміри об'єктів.
Прогнозування обмежувальних рамок є ключовим елементом детекції об'єктів, і різні підходи балансують між точністю та ефективністю. Хоча anchor-based методи підвищують точність завдяки використанню попередньо визначених форм, anchor-free методи спрощують детекцію шляхом прямого прогнозування розташування об'єктів. Розуміння цих технік допомагає створювати кращі системи детекції об'єктів для різних реальних застосувань.
1. Яку інформацію зазвичай містить прогнозування обмежувальної рамки?
2. Яка основна перевага методів на основі якорів у задачах детекції об'єктів?
3. З якою проблемою стикається пряме регресування при передбаченні обмежувальних рамок?
Дякуємо за ваш відгук!