Análise de Correlação
Análise de correlação é uma técnica estatística utilizada para medir a força e a direção de uma relação entre duas variáveis numéricas. Auxilia na compreensão de como as mudanças em uma variável estão associadas às mudanças em outra.
O que é Correlação?
Um coeficiente de correlação (geralmente representado como r) varia entre -1 e 1 e significa:
- 1: correlação positiva perfeita;
- 0: nenhuma correlação;
- −1: correlação negativa perfeita.
Existem vários tipos de métodos de correlação, mas a correlação de Pearson é a mais utilizada para dados numéricos contínuos em R.
Correlação Entre Duas Variáveis
É possível utilizar a função cor()
para calcular o coeficiente de correlação entre duas variáveis. Basta fornecer duas colunas como parâmetros.
cor(df$selling_price, df$km_driven)
Como resultado, a função retorna um valor entre -1 e 1.
Matriz de Correlação (Múltiplas Variáveis)
A mesma função pode ser utilizada para examinar relações entre múltiplas variáveis.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
O resultado é armazenado como uma matriz que mostra os valores de correlação pareada entre todas as variáveis numéricas selecionadas.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4
Análise de Correlação
Deslize para mostrar o menu
Análise de correlação é uma técnica estatística utilizada para medir a força e a direção de uma relação entre duas variáveis numéricas. Auxilia na compreensão de como as mudanças em uma variável estão associadas às mudanças em outra.
O que é Correlação?
Um coeficiente de correlação (geralmente representado como r) varia entre -1 e 1 e significa:
- 1: correlação positiva perfeita;
- 0: nenhuma correlação;
- −1: correlação negativa perfeita.
Existem vários tipos de métodos de correlação, mas a correlação de Pearson é a mais utilizada para dados numéricos contínuos em R.
Correlação Entre Duas Variáveis
É possível utilizar a função cor()
para calcular o coeficiente de correlação entre duas variáveis. Basta fornecer duas colunas como parâmetros.
cor(df$selling_price, df$km_driven)
Como resultado, a função retorna um valor entre -1 e 1.
Matriz de Correlação (Múltiplas Variáveis)
A mesma função pode ser utilizada para examinar relações entre múltiplas variáveis.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
O resultado é armazenado como uma matriz que mostra os valores de correlação pareada entre todas as variáveis numéricas selecionadas.
Obrigado pelo seu feedback!