Intuición de PCA
El análisis de componentes principales (PCA) es una técnica poderosa que identifica nuevos ejes, denominados componentes principales, que son direcciones en los datos que capturan la mayor varianza.
PCA conserva las direcciones donde los datos presentan mayor variación, ya que estas capturan los patrones y la estructura clave.
Piense en PCA como iluminar un objeto 3D con una linterna y examinar la sombra proyectada en una pared. El ángulo de la luz cambia el detalle de la sombra. PCA encuentra el mejor ángulo para que la sombra, o projection, revele la mayor información posible sobre la forma del objeto. De manera similar, PCA proyecta los datos sobre nuevos ejes para preservar la mayor variación posible.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Al identificar las direcciones en las que tus datos varían más, PCA permite reducir dimensiones mientras se preserva la información más importante. Al centrarse en estas direcciones de máxima varianza, se asegura que la estructura y los patrones en tu conjunto de datos permanezcan claros. Esta comprensión te prepara para explorar la base matemática de PCA en las próximas secciones.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 8.33
Intuición de PCA
Desliza para mostrar el menú
El análisis de componentes principales (PCA) es una técnica poderosa que identifica nuevos ejes, denominados componentes principales, que son direcciones en los datos que capturan la mayor varianza.
PCA conserva las direcciones donde los datos presentan mayor variación, ya que estas capturan los patrones y la estructura clave.
Piense en PCA como iluminar un objeto 3D con una linterna y examinar la sombra proyectada en una pared. El ángulo de la luz cambia el detalle de la sombra. PCA encuentra el mejor ángulo para que la sombra, o projection, revele la mayor información posible sobre la forma del objeto. De manera similar, PCA proyecta los datos sobre nuevos ejes para preservar la mayor variación posible.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Al identificar las direcciones en las que tus datos varían más, PCA permite reducir dimensiones mientras se preserva la información más importante. Al centrarse en estas direcciones de máxima varianza, se asegura que la estructura y los patrones en tu conjunto de datos permanezcan claros. Esta comprensión te prepara para explorar la base matemática de PCA en las próximas secciones.
¡Gracias por tus comentarios!