Свайпніть щоб показати меню

Стандартна реалізація

Реалізація моделі TF-IDF у sklearn подібна до моделі мішка слів. Для навчання цієї моделі на корпусі використовується клас TfidfVectorizer із знайомим методом .fit_transform().


              123456789101112131415
            
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Create a default TF-IDF model
vectorizer = TfidfVectorizer()
# Generate a TF-IDF matrix
tfidf_matrix = vectorizer.fit_transform(corpus)
# Convert a sparse matrix into a DataFrame
tfidf_matrix_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
print(tfidf_matrix_df)

Окрім використання іншого класу, решта реалізації є ідентичною до моделі мішка слів. За замовчуванням матриця TF-IDF обчислюється з L2-нормалізацією.

Налаштування TF-IDF

Аналогічно до CountVectorizer, можна вказати параметри min_df та max_df, щоб включати лише ті терміни, які зустрічаються щонайменше у min_df документах і щонайбільше у max_df документах. Ці параметри можна задавати як абсолютними числами документів, так і часткою від загальної кількості документів.

Нижче наведено приклад, де включаються лише ті терміни, які зустрічаються рівно у 2 документах, встановивши і min_df, і max_df рівними 2:


              12345678910111213
            
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Include terms which appear in exactly 2 documents
vectorizer = TfidfVectorizer(min_df=2, max_df=2)
tfidf_matrix = vectorizer.fit_transform(corpus)
tfidf_matrix_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
print(tfidf_matrix_df)

Щоб вказати, які n-грамми включати у нашу матрицю, можна використати параметр ngram_range. Далі включаємо лише біграми у результуючу матрицю:


              12345678910111213
            
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Include only bigrams
vectorizer = TfidfVectorizer(ngram_range=(2, 2))
tfidf_matrix = vectorizer.fit_transform(corpus)
tfidf_matrix_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
print(tfidf_matrix_df)

Це найбільш часто використовувані параметри, однак, якщо ви бажаєте ознайомитися з іншими, зверніться до документації.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 24

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Реалізація TF-IDF

Стандартна реалізація


              123456789101112131415
            
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Create a default TF-IDF model
vectorizer = TfidfVectorizer()
# Generate a TF-IDF matrix
tfidf_matrix = vectorizer.fit_transform(corpus)
# Convert a sparse matrix into a DataFrame
tfidf_matrix_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
print(tfidf_matrix_df)

Налаштування TF-IDF


              12345678910111213
            
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Include terms which appear in exactly 2 documents
vectorizer = TfidfVectorizer(min_df=2, max_df=2)
tfidf_matrix = vectorizer.fit_transform(corpus)
tfidf_matrix_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
print(tfidf_matrix_df)


              12345678910111213
            
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Include only bigrams
vectorizer = TfidfVectorizer(ngram_range=(2, 2))
tfidf_matrix = vectorizer.fit_transform(corpus)
tfidf_matrix_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
print(tfidf_matrix_df)

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 24