Contenu du cours
Apprendre les Statistiques avec Python
Apprendre les Statistiques avec Python
2. Moyenne, Médiane et Mode avec Python
4. Covariance vs Corrélation
Calculer la Variance avec Python
Calcul de la Variance avec NumPy
Dans NumPy, vous devez entrer la séquence de valeurs (dans notre cas, la colonne du jeu de données) dans la fonction np.var()
, comme ceci : np.var(df['work_year'])
.
Calcul de la Variance avec pandas
Dans pandas, vous devez utiliser la méthode .var()
sur la séquence de valeurs (dans notre cas, la colonne du jeu de données), comme ceci : df['work_year'].var()
.
Dans les deux cas, les résultats sont presque les mêmes. Les différences sont dues à différents dénominateurs : N dans NumPy, et N-1 dans pandas. Vérifiez-le maintenant !
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/ds_salaries_statistics', index_col = 0) # Calculate the variance using the function from the NumPy library var_1 = np.var(df['salary_in_usd']) # Calculate the variance using the function from the pandas library var_2 = df['salary_in_usd'].var() print('The variace using NumPy library is', var_1) print('The variace using pandas library is', var_2)
Tout était clair ?
Merci pour vos commentaires !
Section 3. Chapitre 3