Дифузійні Моделі та Ймовірнісні Генеративні Підходи

Розуміння генерації на основі дифузії

Дифузійні моделі — це потужний тип моделей штучного інтелекту, які генерують дані, особливо зображення, навчаючись зворотному процесу додавання випадкового шуму. Уявіть, що ви спостерігаєте, як чисте зображення поступово стає розмитим, як статичний шум на телевізорі. Дифузійна модель навчається робити протилежне: вона бере зашумлені зображення та крок за кроком відновлює оригінал, видаляючи шум.

Процес включає дві основні фази:

Прямий процес (дифузія): поступово додає випадковий шум до зображення протягом багатьох кроків, перетворюючи його на чистий шум;
Зворотний процес (денойзинг): нейронна мережа навчається крок за кроком видаляти шум, відновлюючи оригінальне зображення з зашумленої версії.

Дифузійні моделі відомі своєю здатністю створювати високоякісні, реалістичні зображення. Їхнє навчання зазвичай є більш стабільним порівняно з такими моделями, як GAN, що робить їх дуже привабливими в сучасному генеративному ШІ.

Дифузійні ймовірнісні моделі денойзингу (DDPM)

Дифузійні ймовірнісні моделі денойзингу (DDPM) — це популярний різновид дифузійних моделей, які застосовують ймовірнісні принципи та глибоке навчання для поетапного видалення шуму із зображень.

Прямий процес

У прямому процесі починаємо зі справжнього зображення $x_0$ і поступово додаємо гаусівський шум протягом $T$ кроків часу:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Де:

$x_t$ : зашумлена версія вхідного зображення на кроці часу;
$\beta_t$ : розклад малої дисперсії, що визначає кількість доданого шуму;
$\mathcal{N}$ : гаусівський розподіл.

Загальний шум, доданий до кроку , можна також виразити як:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Де:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Зворотний процес

Мета моделі — навчитися зворотному процесу. Нейронна мережа з параметрами $\theta$ прогнозує середнє та дисперсію денойзованого розподілу:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

де:

$x_t$ : зашумлене зображення на кроці часу $t$ ;
$x_{t-1}$ : прогнозоване менш зашумлене зображення на кроці $t-1$ ;
$\mu_\theta$ : прогнозоване середнє від нейронної мережі;
$\Sigma_\theta$ : прогнозована дисперсія від нейронної мережі.

Функція втрат

Навчання полягає у мінімізації різниці між реальною шумовою компонентою та прогнозованою моделлю шумовою компонентою за допомогою наступної цільової функції:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

де:

$x_t$ : вихідне вхідне зображення;
$\epsilon$ : випадковий гаусівський шум;
$t$ : крок часу під час дифузії;
$\epsilon_\theta$ : прогноз шуму нейронною мережею;
$\={\alpha}_t$ : добуток параметрів графіка шуму до кроку $t$ .

Це допомагає моделі краще видаляти шум, підвищуючи її здатність генерувати реалістичні дані.

Генеративне моделювання на основі скор-функції

Скор-функціональні моделі — це ще один клас дифузійних моделей. Замість прямого навчання зворотного процесу шуму, вони навчаються скор-функції:

\nabla_x\log{p(x)}

де:

$\nabla_x\log{p(x)}$ : градієнт логарифмічної щільності ймовірності за вхідним $x$ . Вказує напрямок збільшення ймовірності у розподілі даних;
$p(x)$ : ймовірнісний розподіл даних.

Ця функція вказує моделі, у якому напрямку зображення має змінюватися, щоб стати більш схожим на реальні дані. Такі моделі використовують метод вибірки, наприклад, динаміку Ланжевена, щоб поступово переміщати зашумлені дані до областей з високою ймовірністю.

Скор-функціональні моделі часто працюють у неперервному часі з використанням стохастичних диференціальних рівнянь (SDE). Такий підхід забезпечує гнучкість і дозволяє отримувати високоякісні генерації для різних типів даних.

Застосування для генерації зображень високої роздільної здатності

Диффузійні моделі здійснили революцію у генеративних завданнях, особливо у створенні візуального контенту високої роздільної здатності. Серед основних застосувань:

Stable Diffusion: латентна дифузійна модель, яка генерує зображення за текстовими підказками. Поєднує денойзингову модель на основі U-Net із варіаційним автокодером (VAE) для роботи у латентному просторі;
DALL·E 2: поєднує ембеддинги CLIP та дифузійне декодування для створення високореалістичних і семантично насичених зображень за текстом;
MidJourney: платформа генерації зображень на основі дифузійних моделей, відома створенням якісних, художньо стилізованих візуалізацій за абстрактними чи креативними підказками.

Ці моделі використовуються для генерації мистецтва, фотореалістичного синтезу, інпейнтингу, суперроздільної здатності тощо.

Підсумок

Диффузійні моделі визначають нову епоху генеративного моделювання, розглядаючи генерацію даних як стохастичний процес у зворотному часі. Завдяки DDPM і score-based моделям досягається надійне навчання, висока якість зразків і переконливі результати у різних модальностях. Їхня основа на ймовірнісних і термодинамічних принципах робить їх як математично елегантними, так і практично потужними.

1. Яка основна ідея дифузійних генеративних моделей?

2. Що використовує прямий процес DDPM для додавання шуму на кожному кроці?

3. Яке з наведеного найкраще описує роль функції оцінки $\nabla_x\log{p(x)}$ у генеративному моделюванні на основі оцінки?

Яка основна ідея дифузійних генеративних моделей?

Select the correct answer

Відновлення даних шляхом обертання поступового процесу зашумлення.

Стиснення даних за допомогою автокодерів

Генерація даних шляхом додавання шуму до чистої випадковості

Вибірка безпосередньо з латентного розподілу

Що використовує прямий процес DDPM для додавання шуму на кожному кроці?

Select the correct answer

Рівномірний розподіл

Нормальний розподіл із фіксованою дисперсією

Нормальний розподіл із розкладеною дисперсією $\beta_t$

Бернуллівський розподіл із навчуваною ймовірністю

Яке з наведеного найкраще описує роль функції оцінки $\nabla_x\log{p(x)}$ у генеративному моделюванні на основі оцінки?

Select the correct answer

Вона оцінює середнє значення розподілу.

Вона визначає кількість шуму, що додається під час навчання.

Вона стискає дані у латентні змінні.

Вона спрямовує дані до областей з високою ймовірністю під час вибірки.

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 9

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between DDPMs and score-based models?

How does the reverse process actually reconstruct the original image?

What are some challenges or limitations of diffusion models?

Awesome!

Completion rate improved to 4.76

Дифузійні Моделі та Ймовірнісні Генеративні Підходи

Свайпніть щоб показати меню

Розуміння генерації на основі дифузії

Процес включає дві основні фази:

Прямий процес (дифузія): поступово додає випадковий шум до зображення протягом багатьох кроків, перетворюючи його на чистий шум;
Зворотний процес (денойзинг): нейронна мережа навчається крок за кроком видаляти шум, відновлюючи оригінальне зображення з зашумленої версії.

Дифузійні ймовірнісні моделі денойзингу (DDPM)

Прямий процес

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Де:

$x_t$ : зашумлена версія вхідного зображення на кроці часу;
$\beta_t$ : розклад малої дисперсії, що визначає кількість доданого шуму;
$\mathcal{N}$ : гаусівський розподіл.

Загальний шум, доданий до кроку , можна також виразити як:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Де:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Зворотний процес

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

де:

$x_t$ : зашумлене зображення на кроці часу $t$ ;
$x_{t-1}$ : прогнозоване менш зашумлене зображення на кроці $t-1$ ;
$\mu_\theta$ : прогнозоване середнє від нейронної мережі;
$\Sigma_\theta$ : прогнозована дисперсія від нейронної мережі.

Функція втрат

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

де:

$x_t$ : вихідне вхідне зображення;
$\epsilon$ : випадковий гаусівський шум;
$t$ : крок часу під час дифузії;
$\epsilon_\theta$ : прогноз шуму нейронною мережею;
$\={\alpha}_t$ : добуток параметрів графіка шуму до кроку $t$ .

Це допомагає моделі краще видаляти шум, підвищуючи її здатність генерувати реалістичні дані.

Генеративне моделювання на основі скор-функції

\nabla_x\log{p(x)}

де:

$\nabla_x\log{p(x)}$ : градієнт логарифмічної щільності ймовірності за вхідним $x$ . Вказує напрямок збільшення ймовірності у розподілі даних;
$p(x)$ : ймовірнісний розподіл даних.

Застосування для генерації зображень високої роздільної здатності

Stable Diffusion: латентна дифузійна модель, яка генерує зображення за текстовими підказками. Поєднує денойзингову модель на основі U-Net із варіаційним автокодером (VAE) для роботи у латентному просторі;
DALL·E 2: поєднує ембеддинги CLIP та дифузійне декодування для створення високореалістичних і семантично насичених зображень за текстом;
MidJourney: платформа генерації зображень на основі дифузійних моделей, відома створенням якісних, художньо стилізованих візуалізацій за абстрактними чи креативними підказками.

Підсумок

1. Яка основна ідея дифузійних генеративних моделей?

2. Що використовує прямий процес DDPM для додавання шуму на кожному кроці?

3. Яке з наведеного найкраще описує роль функції оцінки $\nabla_x\log{p(x)}$ у генеративному моделюванні на основі оцінки?

Яка основна ідея дифузійних генеративних моделей?

Select the correct answer

Відновлення даних шляхом обертання поступового процесу зашумлення.

Стиснення даних за допомогою автокодерів

Генерація даних шляхом додавання шуму до чистої випадковості

Вибірка безпосередньо з латентного розподілу

Що використовує прямий процес DDPM для додавання шуму на кожному кроці?

Select the correct answer

Рівномірний розподіл

Нормальний розподіл із фіксованою дисперсією

Нормальний розподіл із розкладеною дисперсією $\beta_t$

Бернуллівський розподіл із навчуваною ймовірністю

Select the correct answer

Вона оцінює середнє значення розподілу.

Вона визначає кількість шуму, що додається під час навчання.

Вона стискає дані у латентні змінні.

Вона спрямовує дані до областей з високою ймовірністю під час вибірки.

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 9

Дифузійні Моделі та Ймовірнісні Генеративні Підходи

Розуміння генерації на основі дифузії

Дифузійні ймовірнісні моделі денойзингу (DDPM)

Прямий процес

Зворотний процес

Функція втрат

Генеративне моделювання на основі скор-функції

Застосування для генерації зображень високої роздільної здатності

Підсумок

1. Яка основна ідея дифузійних генеративних моделей?

2. Що використовує прямий процес DDPM для додавання шуму на кожному кроці?

3. Яке з наведеного найкраще описує роль функції оцінки ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) у генеративному моделюванні на основі оцінки?

Awesome!

Дифузійні Моделі та Ймовірнісні Генеративні Підходи

Розуміння генерації на основі дифузії

Дифузійні ймовірнісні моделі денойзингу (DDPM)

Прямий процес

Зворотний процес

Функція втрат

Генеративне моделювання на основі скор-функції

Застосування для генерації зображень високої роздільної здатності

Підсумок

1. Яка основна ідея дифузійних генеративних моделей?

2. Що використовує прямий процес DDPM для додавання шуму на кожному кроці?

3. Яке з наведеного найкраще описує роль функції оцінки ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) у генеративному моделюванні на основі оцінки?

3. Яке з наведеного найкраще описує роль функції оцінки $\nabla_x\log{p(x)}$ у генеративному моделюванні на основі оцінки?

3. Яке з наведеного найкраще описує роль функції оцінки $\nabla_x\log{p(x)}$ у генеративному моделюванні на основі оцінки?