Aprenda Gerenciando a Redução de Dimensionalidade e Descobrindo Características Latentes Ocultas | Personalização Profunda por Meio de Fatoração de Matrizes

Deslize para mostrar o menu

Redução de Dimensionalidade: O que é e por que é necessária em sistemas de recomendação

Definição

Redução de dimensionalidade é o processo de transformar dados de um espaço de alta dimensão para um de menor dimensão, mantendo as informações mais importantes.

Em sistemas de recomendação, as matrizes usuário-item podem ser extremamente grandes, com milhares de usuários e produtos. Essa alta dimensionalidade pode tornar os cálculos lentos e levar ao overfitting, quando o modelo captura ruídos em vez de padrões relevantes. Ao reduzir o número de dimensões, os dados se tornam mais fáceis de analisar, visualizar e modelar, resultando em recomendações mais rápidas e robustas.

Características Latentes: definição e exemplos em dados usuário-item

Características latentes são fatores ocultos que explicam padrões observados nas interações entre usuários e itens. Diferentemente de dados diretamente mensuráveis (como idade ou categoria do produto), as características latentes não são explicitamente rotuladas—elas são inferidas a partir da estrutura dos próprios dados. Em um sistema de recomendação de filmes, características latentes podem capturar preferências dos usuários por gêneros, diretores ou até mesmo qualidades abstratas como "humor excêntrico" ou "narrativa épica". Essas características ajudam a explicar por que certos usuários gostam de determinados itens, mesmo que essas preferências não estejam declaradas diretamente.

Como descobrir características latentes melhora as recomendações

Descobrir características latentes permite que um sistema de recomendação vá além de similaridades superficiais. Em vez de simplesmente associar usuários a itens com os quais já interagiram, o sistema pode identificar conexões mais profundas baseadas em características ocultas compartilhadas. Isso resulta em recomendações mais precisas e personalizadas, especialmente para itens novos ou menos populares. Também ajuda a mitigar o problema do "cold start" ao inferir preferências a partir de padrões nos dados, em vez de depender apenas de históricos explícitos dos usuários.

Exemplo: Reduzindo uma matriz usuário-item para dimensões latentes

Imagine uma matriz usuário-item onde as linhas representam usuários e as colunas representam produtos. Cada entrada indica se um usuário interagiu com um produto. Essa matriz pode ser muito esparsa e de alta dimensão. Ao aplicar a redução de dimensionalidade, é possível transformar essa matriz em duas matrizes menores: uma representando os usuários em termos de características latentes e outra representando os itens no mesmo espaço de características latentes. O produto dessas matrizes aproxima os dados originais, mas com muito menos dimensões, facilitando a identificação de padrões relevantes.


              123456789101112131415161718192021222324252627
            
import numpy as np

# Example user-item interaction matrix (users: rows, items: columns)
user_item_matrix = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])

# Perform Singular Value Decomposition (SVD)
U, sigma, Vt = np.linalg.svd(user_item_matrix, full_matrices=False)

# Reduce dimensions (keep top 2 latent features)
k = 2
U_k = U[:, :k]
sigma_k = np.diag(sigma[:k])
Vt_k = Vt[:k, :]

# Reconstruct the matrix using reduced dimensions
reconstructed = np.dot(np.dot(U_k, sigma_k), Vt_k)

print('Original user-item matrix:')
print(user_item_matrix)
print('\nReconstructed matrix (using 2 latent features):')
print(np.round(reconstructed, 2))

1. Qual é um benefício importante de descobrir fatores latentes em um sistema de recomendação?

2. Qual das alternativas a seguir é uma técnica comum para redução de dimensionalidade em sistemas de recomendação?

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 4. Capítulo 1