Aprende Realización de PCA en un Conjunto de Datos Real

Realizar PCA en un conjunto de datos real utilizando scikit-learn. Utilizar el conjunto de datos Iris, un clásico en aprendizaje automático, y seguir estos pasos:

Cargar los datos;
Prepararlos para el análisis;
Estandarizar las características;
Aplicar PCA para reducir su dimensionalidad.

Este proceso demuestra cómo implementar la reducción de dimensionalidad en escenarios prácticos.


              12345678910111213141516171819202122
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

El código anterior realiza PCA en el conjunto de datos Iris siguiendo varios pasos clave:

1. Carga de los datos

El conjunto de datos Iris se carga utilizando load_iris() de scikit-learn. Este conjunto contiene 150 muestras de flores de iris, cada una descrita por cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo.

2. Estandarización de las características

La estandarización asegura que cada característica tenga media 0 y varianza 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Este paso es esencial porque PCA es sensible a la varianza de cada característica. Sin estandarización, las características con escalas mayores dominarían los componentes principales, lo que llevaría a resultados engañosos.

3. Aplicación de PCA

PCA(n_components=2) reduce el conjunto de datos de cuatro dimensiones a dos:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Los componentes principales son nuevos ejes que capturan las direcciones de máxima varianza en los datos. Cada muestra se proyecta sobre estos ejes, resultando en una representación compacta que retiene la mayor cantidad posible de información.

4. Interpretación de la salida de PCA

Se puede comprobar cuánta varianza explica cada componente principal:

print(pca.explained_variance_ratio_)

Esto muestra un arreglo, como [0.7277, 0.2303], lo que significa que el primer componente explica aproximadamente el 73% de la varianza y el segundo alrededor del 23%. Juntos, capturan la mayor parte de la información de los datos originales.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú