Aprende Derivación de PCA Utilizando Álgebra Lineal

PCA busca un nuevo conjunto de ejes, llamados componentes principales, de modo que los datos proyectados tengan varianza máxima. El primer componente principal, denotado como $w_{\raisebox{-0.5pt}{$1$}}$ , se elige para maximizar la varianza de los datos proyectados:

\mathrm{Var}(X w_1)

Sujeto a la restricción de que $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . La solución a este problema de maximización es el vector propio de la matriz de covarianza correspondiente al mayor valor propio.

El problema de optimización es:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1

La solución es cualquier vector $w$ que satisface $\Sigma w = \lambda w$ , donde $\lambda$ es el valor propio correspondiente. En otras palabras, $w$ es un vector propio de la matriz de covarianza $\Sigma$ asociado con el valor propio $\lambda$ .


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Este componente principal es la dirección a lo largo de la cual los datos presentan la mayor varianza. Proyectar los datos sobre esta dirección proporciona la representación unidimensional más informativa del conjunto de datos original.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 3

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain why the principal component is important in PCA?

How do I interpret the values of the principal component?

What does projecting data onto the principal component mean?

Desliza para mostrar el menú

\mathrm{Var}(X w_1)

El problema de optimización es:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 3