Lernen Korrelationsanalyse | Grundlegende Statistische Analyse

Korrelationsanalyse ist eine statistische Methode zur Messung der Stärke und Richtung einer Beziehung zwischen zwei numerischen Variablen. Sie ermöglicht das Verständnis, wie Veränderungen in einer Variablen mit Veränderungen in einer anderen zusammenhängen.

Was ist Korrelation?

Ein Korrelationskoeffizient (in der Regel als $r$ dargestellt) liegt zwischen -1 und 1 und bedeutet:

1: perfekte positive Korrelation;
0: keine Korrelation;
−1: perfekte negative Korrelation.

Es gibt verschiedene Methoden zur Berechnung der Korrelation, aber die Pearson-Korrelation ist die am häufigsten verwendete Methode für numerische kontinuierliche Daten in R.

Korrelation zwischen zwei Variablen

Die Funktion cor() kann verwendet werden, um den Korrelationskoeffizienten zwischen zwei Variablen zu berechnen. Es müssen lediglich zwei Spalten als Parameter angegeben werden.

cor(df$selling_price, df$km_driven)

Als Ergebnis gibt die Funktion einen Wert zwischen -1 und 1 zurück.

Korrelationsmatrix (Mehrere Variablen)

Die gleiche Funktion kann verwendet werden, um Zusammenhänge zwischen mehreren Variablen zu untersuchen.

# Select only numeric columns
numeric_df <- df[, c("selling_price", "km_driven", "max_power", "mileage", "engine", "seats")]
# Compute correlation matrix
cor_matrix <- cor(numeric_df, use = "complete.obs")  # Ignores any rows with missing data

Das Ergebnis wird als Matrix gespeichert, die paarweise Korrelationswerte zwischen allen ausgewählten numerischen Variablen anzeigt.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between positive and negative correlation with more examples?

How do I interpret the values in a correlation matrix?

What should I do if my data contains non-numeric columns or missing values?

Swipe um das Menü anzuzeigen