Вивчайте Метрики Оцінювання Для Генеративного ШІ | Створення та навчання генеративних моделей

Свайпніть щоб показати меню

Оцінювання генеративних моделей відрізняється від оцінювання дискримінативних моделей, які базуються на метриках точності. Оскільки генеративні моделі створюють багато коректних результатів, їх необхідно оцінювати за якістю, різноманітністю та релевантністю. У цьому розділі розглядаються основні метрики, які використовуються як у дослідженнях, так і в індустрії для оцінки генеративних моделей за перцептивними, статистичними та орієнтованими на людину критеріями.

Оцінювання моделей для зображень (GAN, VAE, дифузійні моделі)

Для генеративних моделей зображень зазвичай застосовують перцептивні та статистичні методи оцінювання. Вони допомагають виміряти, наскільки реалістичними, різноманітними та добре розподіленими є згенеровані результати порівняно зі справжніми зображеннями.

Inception Score (IS)

Кількісно визначає чіткість і різноманітність згенерованих зображень, використовуючи впевненість класифікації попередньо навченої моделі Inception.

\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

де:

$p(y|x)$ — умовний розподіл міток для зображення $x$
$p(y)$ — маргінальний розподіл класів.

Fréchet Inception Distance (FID)

Вимірює схожість між розподілами справжніх і згенерованих зображень за допомогою ознакних векторів.

\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

де:

$\mu$ та $\Sigma$ — середнє значення та коваріація ознакних представлень.
$\text{Tr}()$ означає слід матриці — це сума елементів на головній діагоналі. Слід допомагає кількісно оцінити, наскільки відрізняються розподіли ознак за їхньою поширеністю або формою.

LPIPS

Порівнює візуальну схожість між зображеннями за допомогою ознак глибоких нейронних мереж.

Оцінювання текстових моделей (Transformers, GPT, BERT)

Моделі генерації мови оцінюються за якістю, зв'язністю та релевантністю за допомогою статистичних, семантичних і суб'єктивних метрик.

BLEU / ROUGE / METEOR

Порівнюють n-грамну схожість між згенерованим і еталонним текстом.

\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

де:

$p_n$ — точність для n-грам
$\text{BP}$ — штраф за стислість.

BERTScore

Вимірює семантичну схожість за допомогою контекстуальних ембеддінгів. Використовує косинусну схожість між контекстуальними ембеддінгами з агрегуванням точності, повноти та F1.

Відповідність запиту

Вимірює ступінь відповідності вихідних даних вхідним запитам, особливо в моделях, налаштованих на виконання інструкцій.

Примітка

Порівнюйте запити з результатами вручну або використовуйте моделі оцінки схожості, такі як CLIP чи BERT.

Оцінювання мультимодальних моделей (наприклад, DALL·E, Stable Diffusion)

Мультимодальні моделі необхідно оцінювати на відповідність між різними модальностями, такими як зображення та текст.

CLIPScore

Обчислює схожість між векторними представленнями зображення та текстового запиту.

\text{CLIPScores}=cos(f_{image},\ f_{text})

де $f$ — це векторні представлення для кожної модальності.

Відповідність зображення запиту

Вимірює, наскільки добре згенеровані зображення відповідають своїм умовним запитам.

Примітка

Використовуйте CLIP або ручну анотацію для оцінки візуально-текстової відповідності.

Оцінювання людиною

Попри досягнення в автоматизованих метриках, оцінювання людиною залишається необхідним для суб'єктивних або творчих завдань. Багато результатів генеративних моделей, особливо в мистецтві, розповіданні історій чи дизайні, потребують людського судження для оцінки їхньої змістовності, оригінальності та привабливості. Такі методи надають тонкі інсайти, які часто не враховують автоматизовані метрики.

A/B тестування та тьюрингоподібні підходи

Запит користувачів щодо вибору кращого або більш реалістичного результату з двох варіантів.

Приклад із практики: у RLHF-процесі GPT-3 від OpenAI краудворкерам демонстрували декілька завершень моделі та просили ранжувати або обирати найбільш корисний чи реалістичний варіант. Такий зворотний зв'язок безпосередньо впливав на формування моделей винагороди для подальшого донавчання.

Відповідність результату запиту

Суб'єктивна оцінка того, наскільки результат відповідає заданому запиту.

Приклад із практики: під час RLHF-навчання InstructGPT анотатори оцінювали завершення для запиту на кшталт "Напишіть ввічливий лист із відмовою від пропозиції роботи." Оцінки людей визначали, які результати найкраще відповідали намірам і стилю користувача.

Шкали оцінювання

Збір оцінок за шкалою (наприклад, 1–5) для реалістичності, зв'язності або креативності.

Приклад із практики: під час оцінювання Claude від Anthropic дослідники збирали оцінки від 1 до 5 зірок щодо корисності, чесності та безпечності відповідей у діалозі, що сприяло досягненню цілей узгодження моделі.

Оцінювання за допомогою краудсорсингу

Використання платформ на кшталт MTurk для збору різноманітних думок. Забезпечення узгодженості оцінювачів.

Реальний приклад: Google застосовував масштабний краудсорсинг для оцінки якості чат-бота LaMDA за такими критеріями, як осмисленість і конкретність, агрегуючи тисячі суджень користувачів.

Вивчайте більше

Використання гібридного підходу, що поєднує автоматизовані та орієнтовані на людину оцінювання, дозволяє отримати повніше уявлення про ефективність генеративної моделі. Людський аналіз допомагає перевірити надійність метрик і виявити приховані випадки збоїв, які не відображаються у числових показниках. Для критичних застосувань поєднання декількох людських оцінювачів і обчислення міжоцінювальної надійності (наприклад, коефіцієнта каппа Коена) підвищує стійкість результатів.

Підсумок

Ці стратегії оцінювання є незамінними для ітеративної розробки моделей та прийняття рішень щодо їх впровадження. Поєднання об'єктивних метрик із людським зворотним зв'язком допомагає розробникам збалансувати реалістичність, креативність, різноманітність і відповідність намірам користувача або вимогам завдання. Ефективне оцінювання гарантує, що генеративні моделі ШІ не лише технічно якісні, а й відповідають реальним сценаріям використання та очікуванням людей.