Генеративні Моделі на Основі Трансформерів
Свайпніть щоб показати меню
Вступ до трансформерів та механізму самоуваги
Трансформери є базовою архітектурою в сучасному штучному інтелекті, особливо в обробці природної мови (NLP) та генеративному моделюванні. Вперше представлені у статті "Attention is All You Need" (Vaswani et al., 2017), трансформери відмовляються від рекурентності на користь механізму, який називається самоувага (self-attention), що дозволяє моделям враховувати всі частини вхідної послідовності одночасно.
Механізм самоуваги
Механізм самоуваги дозволяє моделі зважувати важливість різних токенів у послідовності відносно один одного. Це здійснюється за допомогою трьох матриць, отриманих із вхідних ембеддінгів:
- Query (Q);
- Key (K);
- Value (V).
Вихід уваги обчислюється як:
Attention(Q,K,V)=softmax(dkQKT)VДе:
- Q, K та V — це матриці, отримані з вхідних даних.
- dk — розмірність векторів ключів.
- softmax перетворює оцінки схожості на ймовірності.
Це дозволяє кожному токену звертати увагу на всі інші токени та відповідно коригувати своє представлення.
Огляд архітектури трансформера
Модель трансформера складається з шарів енкодера та декодера, розташованих у стеку:
- Енкодер перетворює вхідні дані у контекстуалізоване латентне представлення;
- Декодер генерує вихідні токени, використовуючи вихід енкодера та попередні токени.
Кожен шар містить:
- Багатоголовкову самоувагу (Multi-Head Self-Attention);
- Прямі нейронні мережі (Feedforward Neural Networks);
- Нормалізацію шару (Layer Normalization);
- Резидуальні з'єднання (Residual Connections).
Багатоголовкова самоувага (Multi-Head Self-Attention)
Замість обчислення однієї функції уваги, трансформер використовує декілька голів уваги. Кожна голова навчається фокусуватися на різних частинах послідовності.
Multi-Head(Q,K,V)=Concat(head1,head2,...,headn)W0Де кожна голова обчислюється як:
headi=Attention(QWiQ,KWiK,VWiV)Де:
- WiQ,WiK,WiV — це матриці проєкцій для запитів, ключів і значень;
- W0 проєктує конкатеновані голови назад у початковий простір вимірів.
Прямі нейронні мережі (Feedforward Neural Networks)
Кожен блок трансформера містить позиційно-залежну пряму нейронну мережу, яка застосовується незалежно до кожної позиції:
FFN(x)=ReLU(xW1+b1)W2+b2- Складається з двох лінійних шарів із нелінійністю (наприклад, ReLU) між ними;
- Застосовує однакове перетворення до всіх позицій.
Нормалізація шару (Layer Normalization)
Нормалізація шару виконує нормалізацію вхідних даних по ознаках (каналах), а не по батчу. Це стабілізує навчання та покращує збіжність:
LayerNorm(x)=σx−μ⋅γ+βДе:
- μ — середнє значення ознак;
- σ — стандартне відхилення;
- γ та β — параметри, що навчаються.
Резидуальні з'єднання (Residual Connections)
Резидуальні з'єднання додають вхід кожного підшару до його виходу:
Output=Layer(x)+x- Це допомагає з передачею градієнта та дозволяє навчати глибші моделі;
- Використовується навколо шарів самоуваги та прямої нейронної мережі.
У моделях лише-декодера (наприклад, GPT) використовується лише декодер із причинною (маскованою) самоувагою.
Генеративні попередньо навчені трансформери (GPT)
Моделі GPT — це трансформери лише з декодером, які навчаються передбачати наступний токен в авторегресивному режимі:
P(x1,x2,...,xn)=t=1∏nP(xt∣x<t)Ключові характеристики:
- Навчання на масштабних текстових наборах даних;
- Можливість генерувати зв'язний і різноманітний текст;
- Широке застосування у чат-ботах та генерації коду.
BERT і масковане мовне моделювання
BERT (Bidirectional Encoder Representations from Transformers) використовує лише енкодер. Навчання відбувається за допомогою маскованого мовного моделювання (MLM):
- Випадкові токени замінюються на [MASK];
- Модель передбачає оригінальний токен на основі повного контексту.
Це робить BERT ефективним для задач класифікації, питань і відповідей, а також семантичної схожості.
Трансформери та LLM
Трансформери є основою великих мовних моделей (LLM), таких як GPT-3, GPT-4, PaLM, LLaMA та Claude.
LLM використовують великі набори даних і сотні мільярдів параметрів, що дозволяє їм:
- Розуміти та генерувати людську мову;
- Виконувати переклад, узагальнення, питання й відповіді, міркування;
- Використовуватися у чат-ботах, аналізаторах документів і асистентах програмування.
Масштабованість трансформерів і здатність моделювати довгострокові залежності роблять їх ідеальними для таких моделей.
1. Яка основна інновація, запроваджена трансформерами?
2. Чим BERT відрізняється від GPT?
3. Чому трансформери ідеально підходять для LLM?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат