Contenuti del Corso
Statistica con Python
Statistica con Python
4. Covarianza vs Correlazione
Calcolare la Varianza con Python
Calcolo della varianza con NumPy
In numpy
, passa la sequenza di valori (ad esempio una colonna del dataset) nella funzione np.var()
, per esempio: np.var(df['work_year'])
.
Calcolo della varianza con pandas
In pandas
, applica direttamente il metodo .var()
alla colonna, in questo modo: df['work_year'].var()
.
Entrambi i metodi producono risultati simili, con lievi differenze dovute all'uso di denominatori diversi: N in numpy
(varianza della popolazione) e N-1 in pandas
(varianza del campione).
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/ds_salaries_statistics', index_col = 0) # Calculate the variance using the function from the NumPy library var_1 = np.var(df['salary_in_usd']) # Calculate the variance using the function from the pandas library var_2 = df['salary_in_usd'].var() print('The variace using NumPy library is', var_1) print('The variace using pandas library is', var_2)
Tutto è chiaro?
Grazie per i tuoi commenti!
Sezione 3. Capitolo 3