Aprende Intuición de PCA | Introducción a la Reducción de Dimensionalidad

Definición

El análisis de componentes principales (PCA) es una técnica poderosa que identifica nuevos ejes, denominados componentes principales, que son direcciones en los datos que capturan la mayor varianza.

PCA conserva las direcciones donde los datos presentan mayor variación, ya que estas capturan los patrones y la estructura clave.

Piense en PCA como iluminar un objeto 3D con una linterna y examinar la sombra proyectada en una pared. El ángulo de la luz cambia el detalle de la sombra. PCA encuentra el mejor ángulo para que la sombra, o projection, revele la mayor información posible sobre la forma del objeto. De manera similar, PCA proyecta los datos sobre nuevos ejes para preservar la mayor variación posible.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
import matplotlib.pyplot as plt

# Generate a simple 2D dataset
np.random.seed(0)
mean = [0, 0]
cov = [[3, 2], [2, 2]]  # Covariance matrix
X = np.random.multivariate_normal(mean, cov, 200)

# Compute the mean of the data
mean_vector = np.mean(X, axis=0)

# Compute the covariance matrix and its eigenvectors
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# First principal component (direction of maximum variance)
pc1 = eigenvectors[:, np.argmax(eigenvalues)]

# Plot the data
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points")
plt.quiver(
    mean_vector[0], mean_vector[1], 
    pc1[0], pc1[1], 
    angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01,
    label="First principal component"
)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Direction of Maximum Variance (First Principal Component)")
plt.legend()
plt.axis("equal")
plt.show()

Al identificar las direcciones en las que tus datos varían más, PCA permite reducir dimensiones mientras se preserva la información más importante. Al centrarse en estas direcciones de máxima varianza, se asegura que la estructura y los patrones en tu conjunto de datos permanezcan claros. Esta comprensión te prepara para explorar la base matemática de PCA en las próximas secciones.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú

Definición

PCA conserva las direcciones donde los datos presentan mayor variación, ya que estas capturan los patrones y la estructura clave.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
import matplotlib.pyplot as plt

# Generate a simple 2D dataset
np.random.seed(0)
mean = [0, 0]
cov = [[3, 2], [2, 2]]  # Covariance matrix
X = np.random.multivariate_normal(mean, cov, 200)

# Compute the mean of the data
mean_vector = np.mean(X, axis=0)

# Compute the covariance matrix and its eigenvectors
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# First principal component (direction of maximum variance)
pc1 = eigenvectors[:, np.argmax(eigenvalues)]

# Plot the data
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points")
plt.quiver(
    mean_vector[0], mean_vector[1], 
    pc1[0], pc1[1], 
    angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01,
    label="First principal component"
)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Direction of Maximum Variance (First Principal Component)")
plt.legend()
plt.axis("equal")
plt.show()

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4