Korrelasjonsanalyse
Korrelasjonsanalyse er en statistisk teknikk som brukes til å måle styrken og retningen på et forhold mellom to numeriske variabler. Det hjelper oss å forstå hvordan endringer i én variabel er assosiert med endringer i en annen.
Hva er korrelasjon?
En korrelasjonskoeffisient (vanligvis representert som r) varierer mellom -1 og 1 og betyr:
- 1: perfekt positiv korrelasjon;
- 0: ingen korrelasjon;
- −1: perfekt negativ korrelasjon.
Det finnes flere typer korrelasjonsmetoder, men Pearson-korrelasjon er den mest brukte for numeriske kontinuerlige data i R.
Korrelasjon mellom to variabler
Du kan bruke funksjonen cor()
for å beregne korrelasjonskoeffisienten mellom to variabler. Alt du trenger er å oppgi to kolonner som parametere.
cor(df$selling_price, df$km_driven)
Som resultat returnerer funksjonen en verdi mellom -1 og 1.
Korrelasjonsmatrise (Flere variabler)
Den samme funksjonen kan brukes til å undersøke sammenhenger mellom flere variabler.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Resultatet lagres som en matrise som viser parvise korrelasjonsverdier mellom alle valgte numeriske variabler.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain the difference between positive and negative correlation with more examples?
How do I interpret the values in a correlation matrix?
What should I do if my data contains non-numeric columns or missing values?
Awesome!
Completion rate improved to 4
Korrelasjonsanalyse
Sveip for å vise menyen
Korrelasjonsanalyse er en statistisk teknikk som brukes til å måle styrken og retningen på et forhold mellom to numeriske variabler. Det hjelper oss å forstå hvordan endringer i én variabel er assosiert med endringer i en annen.
Hva er korrelasjon?
En korrelasjonskoeffisient (vanligvis representert som r) varierer mellom -1 og 1 og betyr:
- 1: perfekt positiv korrelasjon;
- 0: ingen korrelasjon;
- −1: perfekt negativ korrelasjon.
Det finnes flere typer korrelasjonsmetoder, men Pearson-korrelasjon er den mest brukte for numeriske kontinuerlige data i R.
Korrelasjon mellom to variabler
Du kan bruke funksjonen cor()
for å beregne korrelasjonskoeffisienten mellom to variabler. Alt du trenger er å oppgi to kolonner som parametere.
cor(df$selling_price, df$km_driven)
Som resultat returnerer funksjonen en verdi mellom -1 og 1.
Korrelasjonsmatrise (Flere variabler)
Den samme funksjonen kan brukes til å undersøke sammenhenger mellom flere variabler.
# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs") # Ignores any rows with missing data
Resultatet lagres som en matrise som viser parvise korrelasjonsverdier mellom alle valgte numeriske variabler.
Takk for tilbakemeldingene dine!