Kursinhalt
Lernen von Statistik mit Python
Lernen von Statistik mit Python
Korrelation
Korrelation ist ein statistisches Maß, das den Grad der Assoziation oder Beziehung zwischen zwei Variablen quantifiziert. Mit anderen Worten, es hilft uns zu verstehen, wie zwei Variablen dazu neigen, sich zueinander zu bewegen.
Korrelation bietet eine einfache Möglichkeit, das Ergebnis zu untersuchen. Der Korrelationswert liegt im Bereich von [-1; 1]. Siehe die Tabelle unten:
Korrelationswert | Bedeutung |
---|---|
1 | Perfekte positive Korrelation: Wenn ein Wert steigt, steigt auch der andere und umgekehrt. |
0 | Keine Korrelation: Es gibt keine sichtbare Beziehung zwischen den Variablen. |
-1 | Perfekte negative Korrelation: Wenn ein Wert steigt, sinkt der andere und umgekehrt. |
Korrelation mit Python:
Um die Korrelation zu berechnen, verwenden wir die Funktion np.corrcoef()
von NumPy mit zwei Parametern: den Datensequenzen, für die wir die Korrelation finden möchten. Schauen Sie sich das Beispiel an:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Hier haben wir den Wert an der Stelle [0, 1] extrahiert, genau wie im Fall der Kovarianz. Im vorherigen Kapitel haben wir den Wert 74955.85
erhalten, und die Interpretation des Ergebnisses der Kovariationsfunktion kann herausfordernd sein. In diesem Fall können wir jedoch schließen, dass die Werte stark miteinander verbunden sind.
Danke für Ihr Feedback!