Korrelationsanalys
Korrelationsanalys är en statistisk teknik som används för att mäta styrkan och riktningen av ett samband mellan två numeriska variabler. Det hjälper oss att förstå hur förändringar i en variabel är associerade med förändringar i en annan.
Vad är korrelation?
Ett korrelationskoefficient (vanligtvis representerad som r) varierar mellan -1 och 1 och betyder:
- 1: perfekt positiv korrelation;
- 0: ingen korrelation;
- −1: perfekt negativ korrelation.
Det finns flera typer av korrelationsmetoder, men Pearson-korrelation är den mest använda för numerisk kontinuerlig data i R.
Korrelation mellan två variabler
Funktionen cor()
kan användas för att beräkna korrelationskoefficienten mellan två variabler. Det enda som krävs är att ange två kolumner som parametrar.
cor(df$selling_price, df$km_driven)
Som resultat returnerar funktionen ett värde mellan -1 och 1.
Korrelationsmatris (Flera variabler)
Samma funktion kan användas för att undersöka samband mellan flera variabler.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Resultatet lagras som en matris som visar parvisa korrelationsvärden mellan alla valda numeriska variabler.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4
Korrelationsanalys
Svep för att visa menyn
Korrelationsanalys är en statistisk teknik som används för att mäta styrkan och riktningen av ett samband mellan två numeriska variabler. Det hjälper oss att förstå hur förändringar i en variabel är associerade med förändringar i en annan.
Vad är korrelation?
Ett korrelationskoefficient (vanligtvis representerad som r) varierar mellan -1 och 1 och betyder:
- 1: perfekt positiv korrelation;
- 0: ingen korrelation;
- −1: perfekt negativ korrelation.
Det finns flera typer av korrelationsmetoder, men Pearson-korrelation är den mest använda för numerisk kontinuerlig data i R.
Korrelation mellan två variabler
Funktionen cor()
kan användas för att beräkna korrelationskoefficienten mellan två variabler. Det enda som krävs är att ange två kolumner som parametrar.
cor(df$selling_price, df$km_driven)
Som resultat returnerar funktionen ett värde mellan -1 och 1.
Korrelationsmatris (Flera variabler)
Samma funktion kan användas för att undersöka samband mellan flera variabler.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Resultatet lagras som en matris som visar parvisa korrelationsvärden mellan alla valda numeriska variabler.
Tack för dina kommentarer!