Aprende Reducción de Dimensiones Mediante la Maximización de la Varianza

PCA clasifica los componentes principales según la varianza que capturan, medida por sus autovalores. Mantener los primeros k componentes preserva la mayor parte de la varianza, ya que cada componente captura menos que el anterior y es ortogonal a los componentes previos. Esto reduce las dimensiones mientras se conservan las direcciones más informativas de los datos.

La proporción de varianza explicada para cada componente principal es:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

donde $λ_i$ es el autovalor más grande en la posición $i$ . Esta proporción indica cuánta de la varianza total de los datos es capturada por cada componente principal. La suma de todas las proporciones de varianza explicada siempre es 1, ya que todos los autovalores juntos representan la varianza total del conjunto de datos.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Seleccionar los principales componentes superiores de modo que sus proporciones de varianza explicada sumen hasta un umbral específico, como el 95%, permite reducir el número de dimensiones manteniendo la mayor parte de la información de los datos. Esto significa que solo se conservan las direcciones en los datos donde la dispersión es mayor, que son las más informativas para el análisis o modelado. Al centrarse en estos componentes, se simplifica el conjunto de datos sin perder los patrones más relevantes. Este equilibrio entre dimensionalidad e información es una ventaja clave de PCA.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 4

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú

La proporción de varianza explicada para cada componente principal es:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 4