Analyse de Corrélation
L'analyse de corrélation est une technique statistique utilisée pour mesurer la force et la direction d'une relation entre deux variables numériques. Elle permet de comprendre comment les variations d'une variable sont associées aux variations d'une autre.
Qu'est-ce que la corrélation ?
Un coefficient de corrélation (généralement représenté par r) varie entre -1 et 1 et signifie :
- 1 : corrélation positive parfaite ;
- 0 : absence de corrélation ;
- −1 : corrélation négative parfaite.
Il existe plusieurs méthodes de corrélation, mais la corrélation de Pearson est la plus couramment utilisée pour les données numériques continues dans R.
Corrélation entre deux variables
La fonction cor()
permet de calculer le coefficient de corrélation entre deux variables. Il suffit de fournir deux colonnes en paramètres.
cor(df$selling_price, df$km_driven)
En résultat, la fonction retourne une valeur comprise entre -1 et 1.
Matrice de corrélation (plusieurs variables)
La même fonction peut être utilisée pour examiner les relations entre plusieurs variables.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Le résultat est stocké sous forme de matrice affichant les valeurs de corrélation par paires entre toutes les variables numériques sélectionnées.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4
Analyse de Corrélation
Glissez pour afficher le menu
L'analyse de corrélation est une technique statistique utilisée pour mesurer la force et la direction d'une relation entre deux variables numériques. Elle permet de comprendre comment les variations d'une variable sont associées aux variations d'une autre.
Qu'est-ce que la corrélation ?
Un coefficient de corrélation (généralement représenté par r) varie entre -1 et 1 et signifie :
- 1 : corrélation positive parfaite ;
- 0 : absence de corrélation ;
- −1 : corrélation négative parfaite.
Il existe plusieurs méthodes de corrélation, mais la corrélation de Pearson est la plus couramment utilisée pour les données numériques continues dans R.
Corrélation entre deux variables
La fonction cor()
permet de calculer le coefficient de corrélation entre deux variables. Il suffit de fournir deux colonnes en paramètres.
cor(df$selling_price, df$km_driven)
En résultat, la fonction retourne une valeur comprise entre -1 et 1.
Matrice de corrélation (plusieurs variables)
La même fonction peut être utilisée pour examiner les relations entre plusieurs variables.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Le résultat est stocké sous forme de matrice affichant les valeurs de corrélation par paires entre toutes les variables numériques sélectionnées.
Merci pour vos commentaires !