Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Метрики Оцінювання Для Генеративного ШІ | Створення та навчання генеративних моделей
Генеративний ШІ

bookМетрики Оцінювання Для Генеративного ШІ

Оцінювання генеративних моделей відрізняється від оцінювання дискримінативних моделей, які базуються на метриках точності. Оскільки генеративні моделі створюють багато коректних результатів, їх необхідно оцінювати за якістю, різноманітністю та релевантністю. У цьому розділі розглядаються основні метрики, які використовуються як у дослідженнях, так і в індустрії для оцінки генеративних моделей за перцептивними, статистичними та орієнтованими на людину критеріями.

Оцінювання моделей для зображень (GAN, VAE, дифузійні моделі)

Для генеративних моделей зображень зазвичай застосовують перцептивні та статистичні методи оцінювання. Вони допомагають виміряти, наскільки реалістичними, різноманітними та добре розподіленими є згенеровані результати порівняно зі справжніми зображеннями.

Inception Score (IS)

Кількісно визначає чіткість і різноманітність згенерованих зображень, використовуючи впевненість класифікації попередньо навченої моделі Inception.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

де:

  • p(yx)p(y|x) — умовний розподіл міток для зображення xx
  • p(y)p(y) — маргінальний розподіл класів.

Fréchet Inception Distance (FID)

Вимірює схожість між розподілами справжніх і згенерованих зображень за допомогою ознакних векторів.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

де:

  • μ\mu та Σ\Sigma — середнє значення та коваріація ознакних представлень.
  • Tr()\text{Tr}() означає слід матриці — це сума елементів на головній діагоналі. Слід допомагає кількісно оцінити, наскільки відрізняються розподіли ознак за їхньою поширеністю або формою.

LPIPS

Порівнює візуальну схожість між зображеннями за допомогою ознак глибоких нейронних мереж.

Оцінювання текстових моделей (Transformers, GPT, BERT)

Моделі генерації мови оцінюються за якістю, зв'язністю та релевантністю за допомогою статистичних, семантичних і суб'єктивних метрик.

BLEU / ROUGE / METEOR

Порівнюють n-грамну схожість між згенерованим і еталонним текстом.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

де:

  • pnp_n — точність для n-грам
  • BP\text{BP} — штраф за стислість.

BERTScore

Вимірює семантичну схожість за допомогою контекстуальних ембеддінгів. Використовує косинусну схожість між контекстуальними ембеддінгами з агрегуванням точності, повноти та F1.

Відповідність запиту

Вимірює ступінь відповідності вихідних даних вхідним запитам, особливо в моделях, налаштованих на виконання інструкцій.

Note
Примітка

Порівнюйте запити з результатами вручну або використовуйте моделі оцінки схожості, такі як CLIP чи BERT.

Оцінювання мультимодальних моделей (наприклад, DALL·E, Stable Diffusion)

Мультимодальні моделі необхідно оцінювати на відповідність між різними модальностями, такими як зображення та текст.

CLIPScore

Обчислює схожість між векторними представленнями зображення та текстового запиту.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

де ff — це векторні представлення для кожної модальності.

Відповідність зображення запиту

Вимірює, наскільки добре згенеровані зображення відповідають своїм умовним запитам.

Note
Примітка

Використовуйте CLIP або ручну анотацію для оцінки візуально-текстової відповідності.

Оцінювання людиною

Попри досягнення в автоматизованих метриках, оцінювання людиною залишається необхідним для суб'єктивних або творчих завдань. Багато результатів генеративних моделей, особливо в мистецтві, розповіданні історій чи дизайні, потребують людського судження для оцінки їхньої змістовності, оригінальності та привабливості. Такі методи надають тонкі інсайти, які часто не враховують автоматизовані метрики.

A/B тестування та тьюрингоподібні підходи

Запит користувачів щодо вибору кращого або більш реалістичного результату з двох варіантів.

  • Приклад із практики: у RLHF-процесі GPT-3 від OpenAI краудворкерам демонстрували декілька завершень моделі та просили ранжувати або обирати найбільш корисний чи реалістичний варіант. Такий зворотний зв'язок безпосередньо впливав на формування моделей винагороди для подальшого донавчання.

Відповідність результату запиту

Суб'єктивна оцінка того, наскільки результат відповідає заданому запиту.

  • Приклад із практики: під час RLHF-навчання InstructGPT анотатори оцінювали завершення для запиту на кшталт "Напишіть ввічливий лист із відмовою від пропозиції роботи." Оцінки людей визначали, які результати найкраще відповідали намірам і стилю користувача.

Шкали оцінювання

Збір оцінок за шкалою (наприклад, 1–5) для реалістичності, зв'язності або креативності.

  • Приклад із практики: під час оцінювання Claude від Anthropic дослідники збирали оцінки від 1 до 5 зірок щодо корисності, чесності та безпечності відповідей у діалозі, що сприяло досягненню цілей узгодження моделі.

Оцінювання за допомогою краудсорсингу

Використання платформ на кшталт MTurk для збору різноманітних думок. Забезпечення узгодженості оцінювачів.

  • Реальний приклад: Google застосовував масштабний краудсорсинг для оцінки якості чат-бота LaMDA за такими критеріями, як осмисленість і конкретність, агрегуючи тисячі суджень користувачів.
Note
Вивчайте більше

Використання гібридного підходу, що поєднує автоматизовані та орієнтовані на людину оцінювання, дозволяє отримати повніше уявлення про ефективність генеративної моделі. Людський аналіз допомагає перевірити надійність метрик і виявити приховані випадки збоїв, які не відображаються у числових показниках. Для критичних застосувань поєднання декількох людських оцінювачів і обчислення міжоцінювальної надійності (наприклад, коефіцієнта каппа Коена) підвищує стійкість результатів.

Підсумок

Ці стратегії оцінювання є незамінними для ітеративної розробки моделей та прийняття рішень щодо їх впровадження. Поєднання об'єктивних метрик із людським зворотним зв'язком допомагає розробникам збалансувати реалістичність, креативність, різноманітність і відповідність намірам користувача або вимогам завдання. Ефективне оцінювання гарантує, що генеративні моделі ШІ не лише технічно якісні, а й відповідають реальним сценаріям використання та очікуванням людей.

1. Яка з наведених метрик оцінювання в основному використовується для вимірювання різноманітності згенерованих зображень у генеративних змагальних мережах (GANs)?

2. Яке основне призначення Fréchet Inception Distance (FID) при оцінюванні генеративних моделей?

3. Яка метрика зазвичай використовується для оцінки семантичної схожості між згенерованим текстом і еталонним текстом?

question mark

Яка з наведених метрик оцінювання в основному використовується для вимірювання різноманітності згенерованих зображень у генеративних змагальних мережах (GANs)?

Select the correct answer

question mark

Яке основне призначення Fréchet Inception Distance (FID) при оцінюванні генеративних моделей?

Select the correct answer

question mark

Яка метрика зазвичай використовується для оцінки семантичної схожості між згенерованим текстом і еталонним текстом?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 3

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

What are the main differences between IS, FID, and LPIPS for image model evaluation?

Can you explain how human evaluation complements automated metrics?

How do I choose which evaluation metric to use for my generative model?

Awesome!

Completion rate improved to 4.76

bookМетрики Оцінювання Для Генеративного ШІ

Свайпніть щоб показати меню

Оцінювання генеративних моделей відрізняється від оцінювання дискримінативних моделей, які базуються на метриках точності. Оскільки генеративні моделі створюють багато коректних результатів, їх необхідно оцінювати за якістю, різноманітністю та релевантністю. У цьому розділі розглядаються основні метрики, які використовуються як у дослідженнях, так і в індустрії для оцінки генеративних моделей за перцептивними, статистичними та орієнтованими на людину критеріями.

Оцінювання моделей для зображень (GAN, VAE, дифузійні моделі)

Для генеративних моделей зображень зазвичай застосовують перцептивні та статистичні методи оцінювання. Вони допомагають виміряти, наскільки реалістичними, різноманітними та добре розподіленими є згенеровані результати порівняно зі справжніми зображеннями.

Inception Score (IS)

Кількісно визначає чіткість і різноманітність згенерованих зображень, використовуючи впевненість класифікації попередньо навченої моделі Inception.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

де:

  • p(yx)p(y|x) — умовний розподіл міток для зображення xx
  • p(y)p(y) — маргінальний розподіл класів.

Fréchet Inception Distance (FID)

Вимірює схожість між розподілами справжніх і згенерованих зображень за допомогою ознакних векторів.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

де:

  • μ\mu та Σ\Sigma — середнє значення та коваріація ознакних представлень.
  • Tr()\text{Tr}() означає слід матриці — це сума елементів на головній діагоналі. Слід допомагає кількісно оцінити, наскільки відрізняються розподіли ознак за їхньою поширеністю або формою.

LPIPS

Порівнює візуальну схожість між зображеннями за допомогою ознак глибоких нейронних мереж.

Оцінювання текстових моделей (Transformers, GPT, BERT)

Моделі генерації мови оцінюються за якістю, зв'язністю та релевантністю за допомогою статистичних, семантичних і суб'єктивних метрик.

BLEU / ROUGE / METEOR

Порівнюють n-грамну схожість між згенерованим і еталонним текстом.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

де:

  • pnp_n — точність для n-грам
  • BP\text{BP} — штраф за стислість.

BERTScore

Вимірює семантичну схожість за допомогою контекстуальних ембеддінгів. Використовує косинусну схожість між контекстуальними ембеддінгами з агрегуванням точності, повноти та F1.

Відповідність запиту

Вимірює ступінь відповідності вихідних даних вхідним запитам, особливо в моделях, налаштованих на виконання інструкцій.

Note
Примітка

Порівнюйте запити з результатами вручну або використовуйте моделі оцінки схожості, такі як CLIP чи BERT.

Оцінювання мультимодальних моделей (наприклад, DALL·E, Stable Diffusion)

Мультимодальні моделі необхідно оцінювати на відповідність між різними модальностями, такими як зображення та текст.

CLIPScore

Обчислює схожість між векторними представленнями зображення та текстового запиту.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

де ff — це векторні представлення для кожної модальності.

Відповідність зображення запиту

Вимірює, наскільки добре згенеровані зображення відповідають своїм умовним запитам.

Note
Примітка

Використовуйте CLIP або ручну анотацію для оцінки візуально-текстової відповідності.

Оцінювання людиною

Попри досягнення в автоматизованих метриках, оцінювання людиною залишається необхідним для суб'єктивних або творчих завдань. Багато результатів генеративних моделей, особливо в мистецтві, розповіданні історій чи дизайні, потребують людського судження для оцінки їхньої змістовності, оригінальності та привабливості. Такі методи надають тонкі інсайти, які часто не враховують автоматизовані метрики.

A/B тестування та тьюрингоподібні підходи

Запит користувачів щодо вибору кращого або більш реалістичного результату з двох варіантів.

  • Приклад із практики: у RLHF-процесі GPT-3 від OpenAI краудворкерам демонстрували декілька завершень моделі та просили ранжувати або обирати найбільш корисний чи реалістичний варіант. Такий зворотний зв'язок безпосередньо впливав на формування моделей винагороди для подальшого донавчання.

Відповідність результату запиту

Суб'єктивна оцінка того, наскільки результат відповідає заданому запиту.

  • Приклад із практики: під час RLHF-навчання InstructGPT анотатори оцінювали завершення для запиту на кшталт "Напишіть ввічливий лист із відмовою від пропозиції роботи." Оцінки людей визначали, які результати найкраще відповідали намірам і стилю користувача.

Шкали оцінювання

Збір оцінок за шкалою (наприклад, 1–5) для реалістичності, зв'язності або креативності.

  • Приклад із практики: під час оцінювання Claude від Anthropic дослідники збирали оцінки від 1 до 5 зірок щодо корисності, чесності та безпечності відповідей у діалозі, що сприяло досягненню цілей узгодження моделі.

Оцінювання за допомогою краудсорсингу

Використання платформ на кшталт MTurk для збору різноманітних думок. Забезпечення узгодженості оцінювачів.

  • Реальний приклад: Google застосовував масштабний краудсорсинг для оцінки якості чат-бота LaMDA за такими критеріями, як осмисленість і конкретність, агрегуючи тисячі суджень користувачів.
Note
Вивчайте більше

Використання гібридного підходу, що поєднує автоматизовані та орієнтовані на людину оцінювання, дозволяє отримати повніше уявлення про ефективність генеративної моделі. Людський аналіз допомагає перевірити надійність метрик і виявити приховані випадки збоїв, які не відображаються у числових показниках. Для критичних застосувань поєднання декількох людських оцінювачів і обчислення міжоцінювальної надійності (наприклад, коефіцієнта каппа Коена) підвищує стійкість результатів.

Підсумок

Ці стратегії оцінювання є незамінними для ітеративної розробки моделей та прийняття рішень щодо їх впровадження. Поєднання об'єктивних метрик із людським зворотним зв'язком допомагає розробникам збалансувати реалістичність, креативність, різноманітність і відповідність намірам користувача або вимогам завдання. Ефективне оцінювання гарантує, що генеративні моделі ШІ не лише технічно якісні, а й відповідають реальним сценаріям використання та очікуванням людей.

1. Яка з наведених метрик оцінювання в основному використовується для вимірювання різноманітності згенерованих зображень у генеративних змагальних мережах (GANs)?

2. Яке основне призначення Fréchet Inception Distance (FID) при оцінюванні генеративних моделей?

3. Яка метрика зазвичай використовується для оцінки семантичної схожості між згенерованим текстом і еталонним текстом?

question mark

Яка з наведених метрик оцінювання в основному використовується для вимірювання різноманітності згенерованих зображень у генеративних змагальних мережах (GANs)?

Select the correct answer

question mark

Яке основне призначення Fréchet Inception Distance (FID) при оцінюванні генеративних моделей?

Select the correct answer

question mark

Яка метрика зазвичай використовується для оцінки семантичної схожості між згенерованим текстом і еталонним текстом?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 3
some-alt