Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Realización de PCA en un Conjunto de Datos Real | Implementación de PCA en Python
Reducción de Dimensionalidad con PCA

bookRealización de PCA en un Conjunto de Datos Real

Realizar PCA en un conjunto de datos real utilizando scikit-learn. Utilizar el conjunto de datos Iris, un clásico en aprendizaje automático, y seguir estos pasos:

  • Cargar los datos;
  • Prepararlos para el análisis;
  • Estandarizar las características;
  • Aplicar PCA para reducir su dimensionalidad.

Este proceso demuestra cómo implementar la reducción de dimensionalidad en escenarios prácticos.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

El código anterior realiza PCA en el conjunto de datos Iris siguiendo varios pasos clave:

1. Carga de los datos

El conjunto de datos Iris se carga utilizando load_iris() de scikit-learn. Este conjunto contiene 150 muestras de flores de iris, cada una descrita por cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo.

2. Estandarización de las características

La estandarización asegura que cada característica tenga media 0 y varianza 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Este paso es esencial porque PCA es sensible a la varianza de cada característica. Sin estandarización, las características con escalas mayores dominarían los componentes principales, lo que llevaría a resultados engañosos.

3. Aplicación de PCA

PCA(n_components=2) reduce el conjunto de datos de cuatro dimensiones a dos:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Los componentes principales son nuevos ejes que capturan las direcciones de máxima varianza en los datos. Cada muestra se proyecta sobre estos ejes, resultando en una representación compacta que retiene la mayor cantidad posible de información.

4. Interpretación de la salida de PCA

Se puede comprobar cuánta varianza explica cada componente principal:

print(pca.explained_variance_ratio_)

Esto muestra un arreglo, como [0.7277, 0.2303], lo que significa que el primer componente explica aproximadamente el 73% de la varianza y el segundo alrededor del 23%. Juntos, capturan la mayor parte de la información de los datos originales.

question mark

¿Cuál afirmación es correcta sobre la realización de PCA en el conjunto de datos Iris como se muestra en el ejemplo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Awesome!

Completion rate improved to 8.33

bookRealización de PCA en un Conjunto de Datos Real

Desliza para mostrar el menú

Realizar PCA en un conjunto de datos real utilizando scikit-learn. Utilizar el conjunto de datos Iris, un clásico en aprendizaje automático, y seguir estos pasos:

  • Cargar los datos;
  • Prepararlos para el análisis;
  • Estandarizar las características;
  • Aplicar PCA para reducir su dimensionalidad.

Este proceso demuestra cómo implementar la reducción de dimensionalidad en escenarios prácticos.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

El código anterior realiza PCA en el conjunto de datos Iris siguiendo varios pasos clave:

1. Carga de los datos

El conjunto de datos Iris se carga utilizando load_iris() de scikit-learn. Este conjunto contiene 150 muestras de flores de iris, cada una descrita por cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo.

2. Estandarización de las características

La estandarización asegura que cada característica tenga media 0 y varianza 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Este paso es esencial porque PCA es sensible a la varianza de cada característica. Sin estandarización, las características con escalas mayores dominarían los componentes principales, lo que llevaría a resultados engañosos.

3. Aplicación de PCA

PCA(n_components=2) reduce el conjunto de datos de cuatro dimensiones a dos:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Los componentes principales son nuevos ejes que capturan las direcciones de máxima varianza en los datos. Cada muestra se proyecta sobre estos ejes, resultando en una representación compacta que retiene la mayor cantidad posible de información.

4. Interpretación de la salida de PCA

Se puede comprobar cuánta varianza explica cada componente principal:

print(pca.explained_variance_ratio_)

Esto muestra un arreglo, como [0.7277, 0.2303], lo que significa que el primer componente explica aproximadamente el 73% de la varianza y el segundo alrededor del 23%. Juntos, capturan la mayor parte de la información de los datos originales.

question mark

¿Cuál afirmación es correcta sobre la realización de PCA en el conjunto de datos Iris como se muestra en el ejemplo?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1
some-alt