Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Лінійна Алгебра для Обробки Зображень | Розділ
Прикладний комп'ютерний зір

bookЛінійна Алгебра для Обробки Зображень

Свайпніть щоб показати меню

Лінійна алгебра відіграє ключову роль в обробці зображень. Оскільки цифрові зображення представлені у вигляді матриць значень пікселів, математичні операції, такі як перетворення, масштабування та обертання, можуть виконуватися за допомогою маніпуляцій з матрицями. Розглянемо основні поняття лінійної алгебри, які використовуються у комп'ютерному зорі.

Представлення зображення у вигляді матриць

Цифрове зображення — це, по суті, сітка пікселів, і кожен піксель має значення інтенсивності. У відтінках сірого це 2D-матриця, де кожен елемент відповідає рівню яскравості (0 — чорний, 255 — білий). Наприклад, просте 6×6 зображення у відтінках сірого може виглядати так:

матриця відтінків сірого

Кольорові зображення, натомість, є 3D-матрицями (також називаються тензорами), з окремими шарами для червоного, зеленого та синього (RGB).

RGB_grid
Note
Примітка

Тензор — це загальний термін для багатовимірного масиву чисел. Вектори (1D) та матриці (2D) є особливими випадками тензорів. Загалом, тензори можуть мати будь-яку кількість вимірів і слугують базовою структурою для представлення даних у багатьох застосуваннях комп'ютерного зору та машинного навчання.

Зображення у відтінках сірого мають форму (60, 60), тобто складаються з 60 рядків і 60 стовпців, де кожен піксель представляє одне значення інтенсивності — є лише один колірний канал. На відміну від них, RGB-зображення мають форму (60, 60, 3), що вказує на таку ж просторову роздільну здатність (60 рядків і 60 стовпців), але з додатковим виміром для кольору: кожен піксель містить три значення, які відповідають червоному, зеленому та синьому каналам, що разом визначають повний колір у цій точці.

Лінійні алгебраїчні перетворення для обробки зображень

Багато маніпуляцій із зображеннями базуються на операціях з матрицями, що робить лінійну алгебру ключовою складовою комп'ютерного зору. Розглянемо найпоширеніші типи перетворень.

Масштабування зображення (зміна розміру)

Масштабування збільшує або зменшує розмір зображення. Це досягається множенням матриці зображення на матрицю масштабування:

S=[sx00sy]S = \begin{bmatrix} s_x & 0 \\ 0 & s_y \end{bmatrix}

де sxs_x і sys_y — коефіцієнти масштабування по ширині та висоті відповідно. Приклад: якщо потрібно подвоїти розмір зображення, використовують:

S=[2002]S = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix}
зміна розміру

Множення цієї матриці на координати кожного пікселя масштабує зображення.

Обертання зображення

Для обертання зображення на кут θ\theta використовується матриця обертання:

R=[cosθsinθsinθcosθ]R = \begin{bmatrix} \cos{\theta} & -\sin{\theta} \\ \sin{\theta} & \cos{\theta} \end{bmatrix}

Наприклад, обертання зображення на 90 градусів за годинниковою стрілкою означає використання:

θ=90°R=[0110]\theta = 90\degree \\[6pt] R = \begin{bmatrix} 0&1\\-1&0 \end{bmatrix}
обертання

Застосування цього перетворення переміщує кожен піксель на нову позицію, фактично обертаючи зображення.

Зсув (скошування зображення)

Зсув спотворює зображення шляхом зміщення його рядків або стовпців. Матриця перетворення для зсуву:

Ω=[1ωxωy1]\Omega = \begin{bmatrix} 1 & \omega_x \\ \omega_y & 1 \end{bmatrix}

де ωx\omega_x та ωy\omega_y визначають ступінь нахилу зображення по горизонталі та вертикалі. Зсув зображення на 30% по горизонталі та на 20% по вертикалі:

Ω=[10.30.21]\Omega = \begin{bmatrix} 1 & 0.3 \\ 0.2 & 1 \end{bmatrix}
зсув

Чому лінійна алгебра важлива в комп'ютерному зорі

Лінійна алгебра є основою багатьох завдань обробки зображень, зокрема:

  • Виявлення об'єктів (обмежувальні рамки залежать від перетворень);
  • Розпізнавання облич (власні вектори та PCA для виділення ознак);
  • Покращення зображень (фільтрація використовує матричні згортки);
  • Нейронні мережі (ваги зберігаються у вигляді матриць).

Розуміючи ці базові операції, можна ефективно маніпулювати зображеннями та створювати більш складні застосунки комп'ютерного зору.

question mark

Який з варіантів може бути формою RGB-зображення?

Select all correct answers

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 3

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 3
some-alt