Apprendre Gestion de la Réduction de la Dimensionnalité et Découverte de Caractéristiques Latentes Cachées | Personnalisation Approfondie par Factorisation Matricielle

Glissez pour afficher le menu

Réduction de dimensionnalité : définition et importance dans les systèmes de recommandation

Définition

Réduction de dimensionnalité : processus de transformation des données d’un espace de grande dimension vers un espace de dimension inférieure, tout en conservant les informations les plus importantes.

Dans les systèmes de recommandation, les matrices utilisateur-produit peuvent être extrêmement volumineuses, avec des milliers d’utilisateurs et de produits. Cette forte dimensionnalité peut ralentir les calculs et entraîner un surapprentissage, où le modèle capte le bruit plutôt que des motifs pertinents. En réduisant le nombre de dimensions, les données deviennent plus faciles à analyser, à visualiser et à modéliser, ce qui permet d’obtenir des recommandations plus rapides et plus robustes.

Caractéristiques latentes : définition et exemples dans les données utilisateur-produit

Les caractéristiques latentes sont des facteurs cachés qui expliquent les motifs observés dans les interactions utilisateur-produit. Contrairement aux données directement mesurables (comme l’âge ou la catégorie de produit), les caractéristiques latentes ne sont pas explicitement étiquetées — elles sont déduites de la structure même des données. Dans un système de recommandation de films, les caractéristiques latentes peuvent refléter les préférences des utilisateurs pour certains genres, réalisateurs, ou même des qualités abstraites comme « humour décalé » ou « narration épique ». Ces caractéristiques aident à expliquer pourquoi certains utilisateurs apprécient certains articles, même si ces préférences ne sont pas exprimées directement.

Comment la découverte des caractéristiques latentes améliore les recommandations

La découverte des caractéristiques latentes permet à un système de recommandation d’aller au-delà des similarités superficielles. Au lieu de simplement associer les utilisateurs aux articles avec lesquels ils ont déjà interagi, le système peut identifier des liens plus profonds basés sur des caractéristiques cachées communes. Cela conduit à des recommandations plus précises et personnalisées, notamment pour les articles nouveaux ou moins populaires. Cela aide également à atténuer le problème du « démarrage à froid » en déduisant les préférences à partir des motifs présents dans les données, plutôt qu’en se basant uniquement sur l’historique explicite des utilisateurs.

Exemple : réduction d’une matrice utilisateur-produit en dimensions latentes

Considérer une matrice utilisateur-produit où les lignes représentent les utilisateurs et les colonnes les produits. Chaque entrée indique si un utilisateur a interagi avec un produit. Cette matrice peut être très clairsemée et de grande dimension. En appliquant une réduction de dimensionnalité, il est possible de transformer cette matrice en deux matrices plus petites : l’une représentant les utilisateurs selon les caractéristiques latentes, l’autre représentant les articles dans le même espace de caractéristiques latentes. Le produit de ces matrices permet d’approximer les données d’origine, mais avec beaucoup moins de dimensions, ce qui facilite la découverte de motifs pertinents.


              123456789101112131415161718192021222324252627
            
import numpy as np

# Example user-item interaction matrix (users: rows, items: columns)
user_item_matrix = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])

# Perform Singular Value Decomposition (SVD)
U, sigma, Vt = np.linalg.svd(user_item_matrix, full_matrices=False)

# Reduce dimensions (keep top 2 latent features)
k = 2
U_k = U[:, :k]
sigma_k = np.diag(sigma[:k])
Vt_k = Vt[:k, :]

# Reconstruct the matrix using reduced dimensions
reconstructed = np.dot(np.dot(U_k, sigma_k), Vt_k)

print('Original user-item matrix:')
print(user_item_matrix)
print('\nReconstructed matrix (using 2 latent features):')
print(np.round(reconstructed, 2))

1. Quel est l’un des principaux avantages de la découverte de caractéristiques latentes dans un système de recommandation ?

2. Laquelle des techniques suivantes est couramment utilisée pour la réduction de dimensionnalité dans les systèmes de recommandation ?

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 4. Chapitre 1