Summary  
This chapter demonstrates how to compute measures of spread—mean, population and sample variance, and standard deviation—using NumPy and how to visualize the data distribution with a histogram and lines marking the mean and standard deviation.

General domain of usage  
Business sales data analysis

Scarica il codice dal video

## Definizione del dataset

Qui, assegniamo un array alla variabile `data` per garantire un dataset coerente su cui lavorare per tutti i calcoli.

```python
import numpy as np

# Create a numpy array of daily sales
data = np.array([10, 15, 12, 18, 20, 22, 14, 17, 11, 16])
```

## Calcolo delle statistiche della popolazione

Questa funzione prende l'array come input e restituisce il valore medio di tutti gli elementi, che riassume la tendenza centrale del dataset.

```python
mean_val = np.mean(data)       # Mean
variance_val = np.var(data)    # Population variance (ddof=0 by default)
std_dev_val = np.std(data)     # Population standard deviation
```

* `np.mean(data)` calcola la media aritmetica;
* `np.var(data)` calcola la **varianza della popolazione** (divide per $$n$$);
* `np.std(data)` calcola la **deviazione standard della popolazione** (radice quadrata della varianza).

import numpy as np

# Create a numpy array of daily sales
data = np.array([10, 15, 12, 18, 20, 22, 14, 17, 11, 16])

mean_val = np.mean(data)       # Mean
variance_val = np.var(data)    # Population variance (ddof=0 by default)
std_dev_val = np.std(data)     # Population standard deviation

print(f"Mean: {mean_val}")
print(f"Variance (Population): {variance_val}")
print(f"Standard Deviation (Population): {std_dev_val}")

## Calcolare le statistiche campionarie

Per ottenere **stime non distorte** da un campione, si utilizza `ddof=1`.
Questo applica la **correzione di Bessel**, dividendo la varianza per $(n-1)$ invece che per $n$.

```python
sample_variance_val = np.var(data, ddof=1)
sample_std_dev_val = np.std(data, ddof=1)
```

* `np.var(data, ddof=1)` - varianza campionaria;
* `np.std(data, ddof=1)` - deviazione standard campionaria.

import numpy as np

# Create a numpy array of daily sales
data = np.array([10, 15, 12, 18, 20, 22, 14, 17, 11, 16])

sample_variance_val = np.var(data, ddof=1)
sample_std_dev_val = np.std(data, ddof=1)

print(f"Variance (Sample): {sample_variance_val}")
print(f"Standard Deviation (Sample): {sample_std_dev_val}")

La deviazione standard è la radice quadrata della varianza, fornendo una misura della dispersione **negli stessi unità dei dati originali**, rendendola più facile da interpretare.

Nota

Come si calcola la deviazione standard con la libreria `numpy`?

Padroneggia le basi matematiche essenziali per la data science. Esplora concetti fondamentali su funzioni, calcolo, algebra lineare, probabilità e riduzione della dimensionalità. Costruisci sia una comprensione teorica sia esperienza pratica di programmazione per rafforzare la capacità di analizzare dati, modellare sistemi complessi e applicare tecniche avanzate nel machine learning.

Esplora le basi delle funzioni matematiche. Scopri i diversi tipi di funzioni algebriche e trascendenti, le loro proprietà e come implementarle in Python per risolvere problemi reali.

Padroneggia i concetti di insiemi e serie, dalle operazioni di base alle applicazioni pratiche. Acquisisci esperienza pratica nell'implementazione delle operazioni sugli insiemi e nel lavoro con serie aritmetiche e geometriche in Python.

Sviluppare una solida comprensione di limiti, derivate, integrali e derivate parziali. Collegare la teoria alla pratica implementando questi concetti in Python e applicandoli all'ottimizzazione tramite discesa del gradiente.

Acquisizione di solide conoscenze su vettori, matrici e trasformazioni. Studio dei metodi di decomposizione e analisi degli autovalori, con consolidamento dei concetti tramite esercizi di programmazione in Python e applicazioni pratiche nella data science.

Approfondimento sulla teoria della probabilità e sulla statistica. Studio della probabilità condizionata, del teorema di Bayes e delle misure statistiche. Implementazione dei concetti chiave in Python, simulazione di distribuzioni e consolidamento delle competenze tramite esercizi e quiz.

Implementazione della Dispersione in Python

Definizione del dataset

Calcolo delle statistiche della popolazione

Calcolare le statistiche campionarie