Aprende Visualización de la Varianza Explicada y las Cargas de los Componentes

Después de ajustar PCA, es fundamental comprender cuánta información (varianza) captura cada componente principal. La proporción de varianza explicada indica este valor. También es posible examinar las cargas de los componentes para observar cómo las características originales contribuyen a cada componente principal.


              1234567891011121314151617181920212223242526272829303132333435
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import seaborn as sns

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Plot explained variance ratio
plt.figure(figsize=(6,4))
plt.bar(range(1, len(pca.explained_variance_ratio_)+1), pca.explained_variance_ratio_, alpha=0.7)
plt.ylabel('Explained Variance Ratio')
plt.xlabel('Principal Component')
plt.title('Explained Variance by Principal Components')
plt.show()

# Display component loadings as a heatmap
loadings = pd.DataFrame(pca.components_.T, columns=['PC1', 'PC2'], index=feature_names)
plt.figure(figsize=(6,4))
sns.heatmap(loadings, annot=True, cmap='coolwarm')
plt.title('Principal Component Loadings')
plt.show()

El diagrama de barras muestra la proporción de varianza explicada por cada componente principal. El mapa de calor presenta las cargas, que indican cuánto contribuye cada característica original a cada componente principal. Los valores absolutos grandes significan que una característica es importante para ese componente.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain how to interpret the explained variance ratio in PCA?

What do the component loadings tell us about the original features?

How can I decide how many principal components to keep?

Desliza para mostrar el menú


              1234567891011121314151617181920212223242526272829303132333435
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import seaborn as sns

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Plot explained variance ratio
plt.figure(figsize=(6,4))
plt.bar(range(1, len(pca.explained_variance_ratio_)+1), pca.explained_variance_ratio_, alpha=0.7)
plt.ylabel('Explained Variance Ratio')
plt.xlabel('Principal Component')
plt.title('Explained Variance by Principal Components')
plt.show()

# Display component loadings as a heatmap
loadings = pd.DataFrame(pca.components_.T, columns=['PC1', 'PC2'], index=feature_names)
plt.figure(figsize=(6,4))
sns.heatmap(loadings, annot=True, cmap='coolwarm')
plt.title('Principal Component Loadings')
plt.show()

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2