Realización de PCA en un Conjunto de Datos Real
Realizar PCA en un conjunto de datos real utilizando scikit-learn. Utilizar el conjunto de datos Iris, un clásico en aprendizaje automático, y seguir estos pasos:
- Cargar los datos;
- Prepararlos para el análisis;
- Estandarizar las características;
- Aplicar
PCApara reducir su dimensionalidad.
Este proceso demuestra cómo implementar la reducción de dimensionalidad en escenarios prácticos.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
El código anterior realiza PCA en el conjunto de datos Iris siguiendo varios pasos clave:
1. Carga de los datos
El conjunto de datos Iris se carga utilizando load_iris() de scikit-learn. Este conjunto contiene 150 muestras de flores de iris, cada una descrita por cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo.
2. Estandarización de las características
La estandarización asegura que cada característica tenga media 0 y varianza 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Este paso es esencial porque PCA es sensible a la varianza de cada característica. Sin estandarización, las características con escalas mayores dominarían los componentes principales, lo que llevaría a resultados engañosos.
3. Aplicación de PCA
PCA(n_components=2) reduce el conjunto de datos de cuatro dimensiones a dos:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Los componentes principales son nuevos ejes que capturan las direcciones de máxima varianza en los datos. Cada muestra se proyecta sobre estos ejes, resultando en una representación compacta que retiene la mayor cantidad posible de información.
4. Interpretación de la salida de PCA
Se puede comprobar cuánta varianza explica cada componente principal:
print(pca.explained_variance_ratio_)
Esto muestra un arreglo, como [0.7277, 0.2303], lo que significa que el primer componente explica aproximadamente el 73% de la varianza y el segundo alrededor del 23%. Juntos, capturan la mayor parte de la información de los datos originales.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain how to interpret the principal components in this context?
How can I visualize the results of the PCA on the Iris dataset?
What are some practical applications of PCA beyond this example?
Awesome!
Completion rate improved to 8.33
Realización de PCA en un Conjunto de Datos Real
Desliza para mostrar el menú
Realizar PCA en un conjunto de datos real utilizando scikit-learn. Utilizar el conjunto de datos Iris, un clásico en aprendizaje automático, y seguir estos pasos:
- Cargar los datos;
- Prepararlos para el análisis;
- Estandarizar las características;
- Aplicar
PCApara reducir su dimensionalidad.
Este proceso demuestra cómo implementar la reducción de dimensionalidad en escenarios prácticos.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
El código anterior realiza PCA en el conjunto de datos Iris siguiendo varios pasos clave:
1. Carga de los datos
El conjunto de datos Iris se carga utilizando load_iris() de scikit-learn. Este conjunto contiene 150 muestras de flores de iris, cada una descrita por cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo.
2. Estandarización de las características
La estandarización asegura que cada característica tenga media 0 y varianza 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Este paso es esencial porque PCA es sensible a la varianza de cada característica. Sin estandarización, las características con escalas mayores dominarían los componentes principales, lo que llevaría a resultados engañosos.
3. Aplicación de PCA
PCA(n_components=2) reduce el conjunto de datos de cuatro dimensiones a dos:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Los componentes principales son nuevos ejes que capturan las direcciones de máxima varianza en los datos. Cada muestra se proyecta sobre estos ejes, resultando en una representación compacta que retiene la mayor cantidad posible de información.
4. Interpretación de la salida de PCA
Se puede comprobar cuánta varianza explica cada componente principal:
print(pca.explained_variance_ratio_)
Esto muestra un arreglo, como [0.7277, 0.2303], lo que significa que el primer componente explica aproximadamente el 73% de la varianza y el segundo alrededor del 23%. Juntos, capturan la mayor parte de la información de los datos originales.
¡Gracias por tus comentarios!