Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Reducción de Dimensiones Mediante la Maximización de la Varianza | Fundamentos Matemáticos de PCA
Reducción de Dimensionalidad con PCA

bookReducción de Dimensiones Mediante la Maximización de la Varianza

PCA clasifica los componentes principales según la varianza que capturan, medida por sus autovalores. Mantener los primeros k componentes preserva la mayor parte de la varianza, ya que cada componente captura menos que el anterior y es ortogonal a los componentes previos. Esto reduce las dimensiones mientras se conservan las direcciones más informativas de los datos.

La proporción de varianza explicada para cada componente principal es:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

donde λiλ_i es el autovalor más grande en la posición ii. Esta proporción indica cuánta de la varianza total de los datos es capturada por cada componente principal. La suma de todas las proporciones de varianza explicada siempre es 1, ya que todos los autovalores juntos representan la varianza total del conjunto de datos.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Seleccionar los principales componentes superiores de modo que sus proporciones de varianza explicada sumen hasta un umbral específico, como el 95%, permite reducir el número de dimensiones manteniendo la mayor parte de la información de los datos. Esto significa que solo se conservan las direcciones en los datos donde la dispersión es mayor, que son las más informativas para el análisis o modelado. Al centrarse en estos componentes, se simplifica el conjunto de datos sin perder los patrones más relevantes. Este equilibrio entre dimensionalidad e información es una ventaja clave de PCA.

question mark

¿Qué representa la proporción de varianza explicada en el análisis de componentes principales (PCA)?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 4

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 8.33

bookReducción de Dimensiones Mediante la Maximización de la Varianza

Desliza para mostrar el menú

PCA clasifica los componentes principales según la varianza que capturan, medida por sus autovalores. Mantener los primeros k componentes preserva la mayor parte de la varianza, ya que cada componente captura menos que el anterior y es ortogonal a los componentes previos. Esto reduce las dimensiones mientras se conservan las direcciones más informativas de los datos.

La proporción de varianza explicada para cada componente principal es:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

donde λiλ_i es el autovalor más grande en la posición ii. Esta proporción indica cuánta de la varianza total de los datos es capturada por cada componente principal. La suma de todas las proporciones de varianza explicada siempre es 1, ya que todos los autovalores juntos representan la varianza total del conjunto de datos.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Seleccionar los principales componentes superiores de modo que sus proporciones de varianza explicada sumen hasta un umbral específico, como el 95%, permite reducir el número de dimensiones manteniendo la mayor parte de la información de los datos. Esto significa que solo se conservan las direcciones en los datos donde la dispersión es mayor, que son las más informativas para el análisis o modelado. Al centrarse en estos componentes, se simplifica el conjunto de datos sin perder los patrones más relevantes. Este equilibrio entre dimensionalidad e información es una ventaja clave de PCA.

question mark

¿Qué representa la proporción de varianza explicada en el análisis de componentes principales (PCA)?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 4
some-alt