Lære Håndtering av dimensjonalitetsreduksjon og avdekking av skjulte latente trekk | Dyp personalisering gjennom matrisefaktorisering

Sveip for å vise menyen

Dimensjonsreduksjon: Hva det er og hvorfor det trengs i anbefalingssystemer

Definisjon

Dimensjonsreduksjon er prosessen med å transformere data fra et høy-dimensjonalt rom til et lavere-dimensjonalt rom, samtidig som den viktigste informasjonen beholdes.

I anbefalingssystemer kan bruker–produkt-matriser være svært store, med tusenvis av brukere og produkter. Denne høye dimensjonaliteten kan gjøre beregninger trege og føre til overtilpasning, der modellen fanger opp støy i stedet for meningsfulle mønstre. Ved å redusere antall dimensjoner blir dataene enklere å analysere, visualisere og modellere, noe som gir raskere og mer robuste anbefalinger.

Latente egenskaper: Definisjon og eksempler i bruker–produkt-data

Latente egenskaper er skjulte faktorer som forklarer observerte mønstre i bruker–produkt-interaksjoner. I motsetning til direkte målbare data (som alder eller produktkategori), er latente egenskaper ikke eksplisitt merket—de utledes fra selve datastrukturen. I et filmanbefalingssystem kan latente egenskaper fange opp brukerpreferanser for sjangre, regissører eller til og med abstrakte kvaliteter som "quirky humor" eller "episk historiefortelling." Disse egenskapene bidrar til å forklare hvorfor enkelte brukere liker visse produkter, selv om preferansene ikke er direkte uttalt.

Hvordan avdekking av latente egenskaper forbedrer anbefalinger

Å avdekke latente egenskaper gjør at et anbefalingssystem kan gå utover overfladiske likheter. I stedet for bare å matche brukere med produkter de tidligere har interagert med, kan systemet identifisere dypere forbindelser basert på felles skjulte karakteristikker. Dette gir mer presise og personlige anbefalinger, spesielt for nye eller mindre populære produkter. Det bidrar også til å redusere "cold start"-problemet ved å utlede preferanser fra mønstre i dataene, i stedet for å kun basere seg på eksplisitte brukerhistorikker.

Eksempel: Reduksjon av en bruker–produkt-matrise til latente dimensjoner

Tenk deg en bruker–produkt-matrise der rader representerer brukere og kolonner representerer produkter. Hver oppføring indikerer om en bruker har interagert med et produkt. Denne matrisen kan være svært sparsom og høy-dimensjonal. Ved å bruke dimensjonsreduksjon kan du transformere denne matrisen til to mindre matriser: én som representerer brukere i form av latente egenskaper, og én som representerer produkter i det samme latente egenskapsrommet. Produktet av disse matrisene gir en tilnærming til de opprinnelige dataene, men med langt færre dimensjoner, noe som gjør det enklere å avdekke meningsfulle mønstre.


              123456789101112131415161718192021222324252627
            
import numpy as np

# Example user-item interaction matrix (users: rows, items: columns)
user_item_matrix = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])

# Perform Singular Value Decomposition (SVD)
U, sigma, Vt = np.linalg.svd(user_item_matrix, full_matrices=False)

# Reduce dimensions (keep top 2 latent features)
k = 2
U_k = U[:, :k]
sigma_k = np.diag(sigma[:k])
Vt_k = Vt[:k, :]

# Reconstruct the matrix using reduced dimensions
reconstructed = np.dot(np.dot(U_k, sigma_k), Vt_k)

print('Original user-item matrix:')
print(user_item_matrix)
print('\nReconstructed matrix (using 2 latent features):')
print(np.round(reconstructed, 2))

1. Hva er én viktig fordel med å avdekke latente trekk i et anbefalingssystem?

2. Hvilken av følgende er en vanlig teknikk for dimensjonsreduksjon i anbefalingssystemer?

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 1

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 4. Kapittel 1