Типи Моделей Векторного Простору
Свайпніть щоб показати меню
Векторні просторові моделі можна класифікувати за способом представлення тексту, від простих методів на основі частоти до більш складних, контекстно-залежних ембеддінгів. Кожен підхід має свої переваги та підходить для різних завдань обробки природної мови.
Bag of Words
Bag of words (BoW) — це векторна модель, яка представляє документи у вигляді векторів, де кожен вимір відповідає унікальному слову. Модель може бути бінарною (відображає наявність слова) або частотною (відображає кількість входжень слова).
Нижче наведено приклад частотної моделі BoW:
Як видно, кожен документ представлений у вигляді вектора, де кожен вимір відповідає частоті конкретного слова в цьому документі. У випадку бінарної моделі bag of words кожен вектор містить лише 0 або 1 для кожного слова, що вказує на його відсутність або наявність відповідно.
Попередня обробка тексту є необхідним етапом перед застосуванням BoW або подібних моделей.
TF-IDF
Модель TF-IDF (term frequency-inverse document frequency) розширює підхід "мішок слів" (BoW), коригуючи частоти слів залежно від їхньої появи у всіх документах. Вона підкреслює слова, які є унікальними для конкретного документа, надаючи більш специфічну інформацію про його зміст.
Це досягається шляхом поєднання частоти терміну (кількість разів, коли слово зустрічається у документі) з оберненою частотою документа (міра того, наскільки слово є поширеним або рідкісним у всьому наборі даних).
Нижче наведено результат застосування TF-IDF до документів з попереднього прикладу:
Отримані вектори, збагачені TF-IDF, демонструють більшу різноманітність, забезпечуючи глибше розуміння змісту документа.
Векторні представлення слів і документів
Векторні представлення слів відображають окремі слова у щільні вектори в просторах низької розмірності, що дозволяє фіксувати семантичні подібності, які безпосередньо не піддаються інтерпретації.
Векторні представлення документів, навпаки, створюють щільні вектори, які представляють цілі документи, відображаючи їх загальний семантичний зміст.
Розмірність (розмір) векторних представлень зазвичай обирається відповідно до вимог проєкту та доступних обчислювальних ресурсів. Вибір оптимального розміру є важливим для досягнення балансу між збереженням багатої семантичної інформації та ефективністю моделі.
Ось приклад того, як можуть виглядати векторні представлення слів "cat", "kitten", "dog" та "house":
Хоча числові значення в цій таблиці є довільними, вони ілюструють, як ембедінги можуть відображати змістовні зв'язки між словами.
У реальних застосуваннях такі ембедінги отримують шляхом навчання моделі на великому корпусі текстів, що дозволяє їй виявляти тонкі закономірності та семантичні зв'язки в природній мові.
Подальший розвиток щільних представлень — контекстуальні ембедінги (згенеровані моделями на кшталт BERT та GPT), враховують контекст, у якому з'являється слово, для створення його вектора. Це означає, що одне й те саме слово може мати різні ембедінги залежно від його використання в різних реченнях, забезпечуючи більш тонке розуміння мови.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат