Realizando PCA em um Conjunto de Dados Real
Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:
- Carregamento dos dados;
- Preparação para análise;
- Padronização das variáveis;
- Aplicação do
PCApara redução de dimensionalidade.
Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:
1. Carregamento dos Dados
O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.
2. Padronização das Variáveis
A padronização garante que cada variável tenha média 0 e variância 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.
3. Aplicação do PCA
PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.
4. Interpretação do Resultado do PCA
É possível verificar quanta variância cada componente principal explica:
print(pca.explained_variance_ratio_)
Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain how to interpret the principal components in this context?
How can I visualize the results of the PCA on the Iris dataset?
What are some practical applications of PCA beyond this example?
Awesome!
Completion rate improved to 8.33
Realizando PCA em um Conjunto de Dados Real
Deslize para mostrar o menu
Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:
- Carregamento dos dados;
- Preparação para análise;
- Padronização das variáveis;
- Aplicação do
PCApara redução de dimensionalidade.
Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:
1. Carregamento dos Dados
O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.
2. Padronização das Variáveis
A padronização garante que cada variável tenha média 0 e variância 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.
3. Aplicação do PCA
PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.
4. Interpretação do Resultado do PCA
É possível verificar quanta variância cada componente principal explica:
print(pca.explained_variance_ratio_)
Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.
Obrigado pelo seu feedback!