Навчання та Оптимізація

Навчання генеративних моделей передбачає оптимізацію часто нестабільних і складних ландшафтів функцій втрат. У цьому розділі розглядаються функції втрат, адаптовані до кожного типу моделі, стратегії оптимізації для стабілізації навчання та методи тонкого налаштування попередньо навчених моделей для індивідуальних сценаріїв використання.

Основні функції втрат

Різні родини генеративних моделей використовують окремі формулювання функцій втрат залежно від способу моделювання розподілів даних.

Втрати GAN

Мінімакс-втрата (оригінальний GAN)

Змагальна взаємодія між генератором $G$ та дискримінатором $D$ (приклад з бібліотекою pythorch):

Least squares GAN (LSGAN)

Використовує L2-втрати замість логарифмічних втрат для підвищення стабільності та покращення проходження градієнтів:

Wasserstein GAN (WGAN)

Мінімізує відстань Земельного перевізника (Earth Mover, EM); замінює дискримінатор на "критика" та використовує обрізання ваг або штраф за градієнт для забезпечення ліпшицевої неперервності:

VAE Loss

Evidence Lower Bound (ELBO)

Поєднує реконструкцію та регуляризацію. Член дивергенції Кульбака-Лейблера (KL) стимулює латентний розподіл залишатися близьким до апріорного (зазвичай стандартного нормального):

Втрати дифузійної моделі

Втрата передбачення шуму

Моделі навчаються видаляти доданий гаусівський шум протягом дифузійного графіка. Варіанти використовують передбачення швидкості (наприклад, v-prediction у Stable Diffusion v2) або гібридні цілі:

Техніки оптимізації

Навчання генеративних моделей часто є нестабільним і чутливим до гіперпараметрів. Для забезпечення збіжності та якості застосовуються різні техніки.

Оптимізатори та планувальники

Adam / AdamW: адаптивні оптимізатори градієнта є стандартом де-факто. Для GAN використовуйте $\beta_1=0.5,\ \beta_2=0.999$ ;
RMSprop: іноді використовується у варіантах WGAN;
Планування швидкості навчання:
- Фази розігріву для трансформерів і дифузійних моделей;
- Cosine decay або ReduceLROnPlateau для стабільної збіжності.

Методи стабілізації

Обрізання градієнта: запобігання вибуху градієнтів у RNN або глибоких UNet;

Спектральна нормалізація: застосовується до шарів дискримінатора в GAN для забезпечення обмежень Ліпшиця;

Згладжування міток: пом'якшує жорсткі мітки (наприклад, реальні = 0.9 замість 1.0) для зменшення надмірної впевненості;
Правило оновлення з двома часовими масштабами (TTUR): використання різних швидкостей навчання для генератора та дискримінатора для покращення збіжності;
Навчання зі змішаною точністю: використання FP16 (через NVIDIA Apex або PyTorch AMP) для прискорення навчання на сучасних GPU.

Примітка

Окремо відстежуйте втрати генератора та дискримінатора. Періодично використовуйте метрики, такі як FID або IS, для оцінки фактичної якості результату, а не покладайтеся лише на значення втрат.

Тонке налаштування попередньо навчених генеративних моделей

Попередньо навчені генеративні моделі (наприклад, Stable Diffusion, LLaMA, StyleGAN2) можна адаптувати для задач певної предметної області за допомогою полегшених стратегій навчання.

Техніки перенавчання

Повне тонке налаштування: перенавчання всіх ваг моделі. Високі обчислювальні витрати, але максимальна гнучкість;

Повторне заморожування шарів / поступове розморожування: початкове заморожування більшості шарів, поступове розморожування вибраних шарів для кращого тонкого налаштування. Це дозволяє уникнути катастрофічного забування. Заморожування ранніх шарів допомагає зберегти загальні ознаки з попереднього навчання (наприклад, краї або шаблони слів), а розморожування пізніших — дозволяє моделі навчатися ознакам, специфічним для задачі;

LoRA / адаптерні шари: впровадження тренованих шарів низького рангу без оновлення параметрів базової моделі;

DreamBooth / текстова інверсія (дифузійні моделі):
- Дотонування на основі декількох зображень, специфічних для об'єкта.
- Використання конвеєра diffusers:

Тюнінг підказок / p-тюнінг:

Поширені випадки використання

Адаптація стилю: донавчання на аніме, коміксах або художніх датасетах;
Галузева адаптація: налаштування LLM для юридичної, медичної або корпоративної сфер;
Персоналізація: налаштування ідентичності або голосу за допомогою невеликих референсних наборів.

Примітка

Використовуйте Hugging Face PEFT для методів на основі LoRA/адаптерів, а також бібліотеку Diffusers для легких пайплайнів донавчання з вбудованою підтримкою DreamBooth і classifier-free guidance.

Підсумок

Використання специфічних для моделі функцій втрат, що відповідають цілям навчання та структурі моделі;
Оптимізація за допомогою адаптивних методів, стабілізаційних технік і ефективного планування;
Донавчання попередньо навчених моделей із використанням сучасних low-rank або prompt-based стратегій трансферу для зниження вартості та підвищення адаптивності до домену.

1. Яка з наведених є основною метою використання технік регуляризації під час навчання?

2. Який із наведених оптимізаторів зазвичай використовується для навчання моделей глибокого навчання та адаптує швидкість навчання під час тренування?

3. Яка основна проблема виникає під час навчання генеративних моделей, особливо у контексті GAN (Генеративних Змагальних Мереж)?

Яка з наведених є основною метою використання технік регуляризації під час навчання?

Select the correct answer

Збільшення розміру тренувального набору даних.

Запобігання перенавантаженню шляхом штрафування надмірно складних моделей.

Прискорення процесу навчання.

Зменшення обчислювальних витрат під час навчання.

Який із наведених оптимізаторів зазвичай використовується для навчання моделей глибокого навчання та адаптує швидкість навчання під час тренування?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Яка основна проблема виникає під час навчання генеративних моделей, особливо у контексті GAN (Генеративних Змагальних Мереж)?

Select the correct answer

Складність балансування навчання генератора та дискримінатора

Повільна збіжність через малі градієнти

Неможливість кількісно оцінити продуктивність моделі

Перенавчання моделі дискримінатора

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 2

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 4.76

Навчання та Оптимізація

Свайпніть щоб показати меню

Основні функції втрат

Втрати GAN

Мінімакс-втрата (оригінальний GAN)

Змагальна взаємодія між генератором $G$ та дискримінатором $D$ (приклад з бібліотекою pythorch):

Least squares GAN (LSGAN)

Wasserstein GAN (WGAN)

VAE Loss

Evidence Lower Bound (ELBO)

Втрати дифузійної моделі

Втрата передбачення шуму

Техніки оптимізації

Оптимізатори та планувальники

Adam / AdamW: адаптивні оптимізатори градієнта є стандартом де-факто. Для GAN використовуйте $\beta_1=0.5,\ \beta_2=0.999$ ;
RMSprop: іноді використовується у варіантах WGAN;
Планування швидкості навчання:
- Фази розігріву для трансформерів і дифузійних моделей;
- Cosine decay або ReduceLROnPlateau для стабільної збіжності.

Методи стабілізації

Обрізання градієнта: запобігання вибуху градієнтів у RNN або глибоких UNet;

Спектральна нормалізація: застосовується до шарів дискримінатора в GAN для забезпечення обмежень Ліпшиця;

Згладжування міток: пом'якшує жорсткі мітки (наприклад, реальні = 0.9 замість 1.0) для зменшення надмірної впевненості;
Правило оновлення з двома часовими масштабами (TTUR): використання різних швидкостей навчання для генератора та дискримінатора для покращення збіжності;
Навчання зі змішаною точністю: використання FP16 (через NVIDIA Apex або PyTorch AMP) для прискорення навчання на сучасних GPU.

Примітка

Тонке налаштування попередньо навчених генеративних моделей

Техніки перенавчання

Повне тонке налаштування: перенавчання всіх ваг моделі. Високі обчислювальні витрати, але максимальна гнучкість;

Повторне заморожування шарів / поступове розморожування: початкове заморожування більшості шарів, поступове розморожування вибраних шарів для кращого тонкого налаштування. Це дозволяє уникнути катастрофічного забування. Заморожування ранніх шарів допомагає зберегти загальні ознаки з попереднього навчання (наприклад, краї або шаблони слів), а розморожування пізніших — дозволяє моделі навчатися ознакам, специфічним для задачі;

LoRA / адаптерні шари: впровадження тренованих шарів низького рангу без оновлення параметрів базової моделі;

DreamBooth / текстова інверсія (дифузійні моделі):
- Дотонування на основі декількох зображень, специфічних для об'єкта.
- Використання конвеєра diffusers:

Тюнінг підказок / p-тюнінг:

Поширені випадки використання

Адаптація стилю: донавчання на аніме, коміксах або художніх датасетах;
Галузева адаптація: налаштування LLM для юридичної, медичної або корпоративної сфер;
Персоналізація: налаштування ідентичності або голосу за допомогою невеликих референсних наборів.

Примітка

Підсумок

Використання специфічних для моделі функцій втрат, що відповідають цілям навчання та структурі моделі;
Оптимізація за допомогою адаптивних методів, стабілізаційних технік і ефективного планування;
Донавчання попередньо навчених моделей із використанням сучасних low-rank або prompt-based стратегій трансферу для зниження вартості та підвищення адаптивності до домену.

1. Яка з наведених є основною метою використання технік регуляризації під час навчання?

2. Який із наведених оптимізаторів зазвичай використовується для навчання моделей глибокого навчання та адаптує швидкість навчання під час тренування?

3. Яка основна проблема виникає під час навчання генеративних моделей, особливо у контексті GAN (Генеративних Змагальних Мереж)?

Яка з наведених є основною метою використання технік регуляризації під час навчання?

Select the correct answer

Збільшення розміру тренувального набору даних.

Запобігання перенавантаженню шляхом штрафування надмірно складних моделей.

Прискорення процесу навчання.

Зменшення обчислювальних витрат під час навчання.

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Select the correct answer

Складність балансування навчання генератора та дискримінатора

Повільна збіжність через малі градієнти

Неможливість кількісно оцінити продуктивність моделі

Перенавчання моделі дискримінатора

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 2