Варіаційні Автокодери (VAE)

Автокодери та варіаційні автокодери

Автокодери — це нейронні мережі, призначені для навчання ефективних представлень даних за допомогою процесів кодування та декодування. Стандартний автокодер складається з двох компонентів:

Кодувальник: стискає вхідні дані до представлення з меншою розмірністю.
Декодувальник: відновлює початкові дані зі стисненого представлення.

Традиційні автокодери навчаються детермінованим відображенням, тобто стискають дані у фіксований латентний простір. Однак їм важко генерувати різноманітні результати, оскільки їхній латентний простір позбавлений структури та плавності.

Відмінності між стандартними автокодерами та VAE

Варіаційні автокодери (VAE) вдосконалюють стандартні автокодери шляхом введення ймовірнісного латентного простору, що дозволяє структуровано та осмислено генерувати нові дані.

Структура енкодера-декодера та представлення латентного простору

VAE складаються з двох основних компонентів:

Енкодер: Відображає вхідні дані у ймовірнісний розподіл у нижчовимірному латентному просторі $z$ .
Декодер: Виконує вибірку з латентного простору та відновлює вхідні дані.

Математичне формулювання:

Енкодер генерує середнє значення та дисперсію для латентного простору:

\mu = f_\mu (x; \theta)

\sigma^2 = f_\sigma (x; \theta)

де:

$\mu$ — середнє значення розподілу латентного простору;
$\sigma^2$ — дисперсія;
$f_\mu$ та $f_\sigma$ — функції, параметризовані $\theta$ , зазвичай реалізовані у вигляді нейронних мереж.

Замість прямої передачі цих параметрів декодеру, ми здійснюємо вибірку з гаусівського розподілу, використовуючи трюк репараметризації:

z = \mu + \sigma \odot \epsilon,

\epsilon \sim \mathcal{N}(0, I)

де:

$\odot$ позначає поелементне множення;
$\epsilon$ — випадкова змінна, вибрана зі стандартного нормального розподілу.

Цей трюк дозволяє градієнтам проходити через процес вибірки, що робить можливим застосування зворотного поширення помилки. Без цього трюку стохастична вибірка унеможливлює навчання на основі градієнтів.

Декодер реконструює вхідні дані з $z$ , навчаючись функції $g(z; \phi)$ , яка повертає параметри розподілу даних. Мережа декодера навчається мінімізувати різницю між реконструйованими та оригінальними даними, забезпечуючи якісну реконструкцію.

Ймовірнісне моделювання у VAE

VAE базуються на байєсівському висновку, що дозволяє моделювати зв'язок між спостережуваними даними $x$ та латентними змінними $z$ за допомогою ймовірнісних розподілів. Основний принцип ґрунтується на теоремі Байєса:

P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Оскільки обчислення $p(x)$ вимагає інтегрування по всіх можливих латентних змінних, що є обчислювально складним, VAE апроксимують апостеріорний розподіл $p(z∣x)$ простішою функцією $q(z∣x)$ , що забезпечує ефективний висновок.

Нижня межа доказу (ELBO)

Замість максимізації обчислювально складної маргінальної ймовірності $p(x)$ , VAE максимізують її нижню межу, яка називається нижньою межею доказу (ELBO):

\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

де:

Перший доданок, $\mathbb{E}_{q(z|x)}[\log{p(x|z)}]$ , є втратою реконструкції, що забезпечує схожість вихідних даних з вхідними;
Другий доданок, $D_{KL}(q(z|x)\ ||\ p(z))$ , є дивергенцією Кульбака-Лейблера, яка регуляризує латентний простір, забезпечуючи близькість $q(z∣x)$ до апріорного розподілу $p(z)$ .

Збалансовуючи ці два доданки, VAE досягають компромісу між точною реконструкцією та гладким представленням латентного простору.

Застосування VAE

1. Виявлення аномалій

VAE здатні навчатися нормальній структурі даних. При зустрічі з аномальними вхідними даними модель не може якісно їх реконструювати, що призводить до вищих помилок реконструкції, які можна використовувати для виявлення аномалій.

2. Синтез зображень

VAE можуть генерувати нові зображення шляхом вибірки з вивченого латентного простору. Вони широко застосовуються у таких задачах, як:

Генерація облич (наприклад, створення нових людських облич);
Стильовий трансфер (наприклад, поєднання художніх стилів).

3. Генерація тексту

VAE можна адаптувати для задач обробки природної мови (NLP), де вони використовуються для створення різноманітних і зв'язних текстових послідовностей.

4. Розробка лікарських засобів

VAE застосовуються в біоінформатиці та розробці лікарських засобів, де вони генерують молекулярні структури з бажаними властивостями.

Висновок

Варіаційні автокодери — це потужний клас генеративних моделей, які впроваджують ймовірнісне моделювання в автокодери. Їхня здатність генерувати різноманітні та реалістичні дані зробила їх фундаментальним компонентом сучасного генеративного ШІ.

У порівнянні з традиційними автокодерами, VAE забезпечують структурований латентний простір, покращуючи генеративні можливості. З розвитком досліджень VAE продовжують відігравати ключову роль у застосуваннях ШІ, що охоплюють комп'ютерний зір, NLP та інші сфери.

1. Яка основна відмінність між стандартним автокодером і варіаційним автокодером (VAE)?

2. Яка роль члена KL-дивергенції у функції втрат VAE?

3. Чому трюк репараметризації є необхідним у VAE?

4. Яке з наступного найкраще описує ELBO (Evidence Lower Bound) у VAE?

5. Яке з наступного НЕ є типовим застосуванням VAE?

Яка основна відмінність між стандартним автокодером і варіаційним автокодером (VAE)?

Select the correct answer

VAE використовують детерміноване кодування, тоді як стандартні автокодери використовують ймовірнісне кодування.

Стандартні автокодери навчають розподіл у латентному просторі, тоді як VAE навчають фіксоване латентне представлення.

VAE забезпечують структурований латентний простір за допомогою ймовірнісного моделювання, тоді як стандартні автокодери цього не роблять.

Стандартні автокодери мають кращі генеративні можливості, ніж VAE.

Яка роль члена KL-дивергенції у функції втрат VAE?

Select the correct answer

Він забезпечує, що латентний простір є дискретним, а не неперервним.

Він вимірює схожість між апроксимованим апостеріорним і апріорним розподілами.

Він максимізує ймовірність згенерованих даних.

Він безпосередньо мінімізує помилку реконструкції декодера.

Чому трюк репараметризації є необхідним у VAE?

Select the correct answer

Він забезпечує, що декодер отримує фіксовані латентні вектори замість стохастичних вибірок.

Він дозволяє здійснювати зворотне поширення похибки через стохастичну операцію вибірки.

Він безпосередньо зменшує помилку реконструкції моделі.

Він перетворює латентний простір на детерміновану функцію.

Яке з наступного найкраще описує ELBO (Evidence Lower Bound) у VAE?

Select the correct answer

Він є нижньою межею ймовірності спостережуваних даних.

Використовується лише для оптимізації декодера.

Виключає необхідність терму KL-дивергенції у функції втрат.

Забезпечує незалежну роботу енкодера та декодера.

Яке з наступного НЕ є типовим застосуванням VAE?

Select the correct answer

Генерація зображень

Виявлення аномалій

Класифікація з учителем

Генерація тексту

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the main differences between standard autoencoders and VAEs?

How does the reparameterization trick work in VAEs?

What are some practical applications of VAEs in real-world scenarios?

Awesome!

Completion rate improved to 4.76

Варіаційні Автокодери (VAE)

Свайпніть щоб показати меню

Автокодери та варіаційні автокодери

Кодувальник: стискає вхідні дані до представлення з меншою розмірністю.
Декодувальник: відновлює початкові дані зі стисненого представлення.

Відмінності між стандартними автокодерами та VAE

Структура енкодера-декодера та представлення латентного простору

VAE складаються з двох основних компонентів:

Енкодер: Відображає вхідні дані у ймовірнісний розподіл у нижчовимірному латентному просторі $z$ .
Декодер: Виконує вибірку з латентного простору та відновлює вхідні дані.

Математичне формулювання:

Енкодер генерує середнє значення та дисперсію для латентного простору:

\mu = f_\mu (x; \theta)

\sigma^2 = f_\sigma (x; \theta)

де:

$\mu$ — середнє значення розподілу латентного простору;
$\sigma^2$ — дисперсія;
$f_\mu$ та $f_\sigma$ — функції, параметризовані $\theta$ , зазвичай реалізовані у вигляді нейронних мереж.

z = \mu + \sigma \odot \epsilon,

\epsilon \sim \mathcal{N}(0, I)

де:

$\odot$ позначає поелементне множення;
$\epsilon$ — випадкова змінна, вибрана зі стандартного нормального розподілу.

Ймовірнісне моделювання у VAE

P(z|x)= \frac{P(x|z)P(z)}{P(x)}

Нижня межа доказу (ELBO)

\log{p(x)} \ge \mathbb{E}_{q(z|x)} \left[ \log{p(x|z)} \right] - D_{KL} (q (z | x) || p(z))

де:

Перший доданок, $\mathbb{E}_{q(z|x)}[\log{p(x|z)}]$ , є втратою реконструкції, що забезпечує схожість вихідних даних з вхідними;
Другий доданок, $D_{KL}(q(z|x)\ ||\ p(z))$ , є дивергенцією Кульбака-Лейблера, яка регуляризує латентний простір, забезпечуючи близькість $q(z∣x)$ до апріорного розподілу $p(z)$ .

Застосування VAE

1. Виявлення аномалій

2. Синтез зображень

Генерація облич (наприклад, створення нових людських облич);
Стильовий трансфер (наприклад, поєднання художніх стилів).

3. Генерація тексту

4. Розробка лікарських засобів

Висновок

1. Яка основна відмінність між стандартним автокодером і варіаційним автокодером (VAE)?

2. Яка роль члена KL-дивергенції у функції втрат VAE?

3. Чому трюк репараметризації є необхідним у VAE?

4. Яке з наступного найкраще описує ELBO (Evidence Lower Bound) у VAE?

5. Яке з наступного НЕ є типовим застосуванням VAE?

Яка основна відмінність між стандартним автокодером і варіаційним автокодером (VAE)?

Select the correct answer

Стандартні автокодери мають кращі генеративні можливості, ніж VAE.

Яка роль члена KL-дивергенції у функції втрат VAE?

Select the correct answer

Він забезпечує, що латентний простір є дискретним, а не неперервним.

Він вимірює схожість між апроксимованим апостеріорним і апріорним розподілами.

Він максимізує ймовірність згенерованих даних.

Він безпосередньо мінімізує помилку реконструкції декодера.

Чому трюк репараметризації є необхідним у VAE?

Select the correct answer

Він забезпечує, що декодер отримує фіксовані латентні вектори замість стохастичних вибірок.

Він дозволяє здійснювати зворотне поширення похибки через стохастичну операцію вибірки.

Він безпосередньо зменшує помилку реконструкції моделі.

Він перетворює латентний простір на детерміновану функцію.

Яке з наступного найкраще описує ELBO (Evidence Lower Bound) у VAE?

Select the correct answer

Він є нижньою межею ймовірності спостережуваних даних.

Використовується лише для оптимізації декодера.

Виключає необхідність терму KL-дивергенції у функції втрат.

Забезпечує незалежну роботу енкодера та декодера.

Яке з наступного НЕ є типовим застосуванням VAE?

Select the correct answer

Генерація зображень

Виявлення аномалій

Класифікація з учителем

Генерація тексту

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 6