Korrelationsanalyse
Korrelationsanalyse er en statistisk teknik, der bruges til at måle styrken og retningen af et forhold mellem to numeriske variable. Det hjælper os med at forstå, hvordan ændringer i én variabel er forbundet med ændringer i en anden.
Hvad er korrelation?
En korrelationskoefficient (normalt repræsenteret som r) ligger mellem -1 og 1 og betyder:
- 1: perfekt positiv korrelation;
- 0: ingen korrelation;
- −1: perfekt negativ korrelation.
Der findes flere typer korrelationsmetoder, men Pearson-korrelation er den mest anvendte for numeriske kontinuerlige data i R.
Korrelation mellem to variable
Du kan bruge funktionen cor()
til at beregne korrelationskoefficienten mellem to variable. Du skal blot angive to kolonner som parametre.
cor(df$selling_price, df$km_driven)
Som resultat returnerer funktionen en værdi mellem -1 og 1.
Korrelationsmatrix (Flere Variable)
Den samme funktion kan bruges til at undersøge relationer mellem flere variable.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Resultatet gemmes som en matrix, der viser parvise korrelationsværdier mellem alle valgte numeriske variable.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 4
Korrelationsanalyse
Stryg for at vise menuen
Korrelationsanalyse er en statistisk teknik, der bruges til at måle styrken og retningen af et forhold mellem to numeriske variable. Det hjælper os med at forstå, hvordan ændringer i én variabel er forbundet med ændringer i en anden.
Hvad er korrelation?
En korrelationskoefficient (normalt repræsenteret som r) ligger mellem -1 og 1 og betyder:
- 1: perfekt positiv korrelation;
- 0: ingen korrelation;
- −1: perfekt negativ korrelation.
Der findes flere typer korrelationsmetoder, men Pearson-korrelation er den mest anvendte for numeriske kontinuerlige data i R.
Korrelation mellem to variable
Du kan bruge funktionen cor()
til at beregne korrelationskoefficienten mellem to variable. Du skal blot angive to kolonner som parametre.
cor(df$selling_price, df$km_driven)
Som resultat returnerer funktionen en værdi mellem -1 og 1.
Korrelationsmatrix (Flere Variable)
Den samme funktion kan bruges til at undersøge relationer mellem flere variable.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Resultatet gemmes som en matrix, der viser parvise korrelationsværdier mellem alle valgte numeriske variable.
Tak for dine kommentarer!