Summary  
This chapter explains how to calculate variance and covariance for one or more variables and how to construct a covariance matrix by centering data and using matrix operations.  

General domain of usage  
Statistical data analysis

**Varianssi** mittaa, kuinka paljon muuttuja poikkeaa keskiarvostaan.

Määritelmä

Kaavan **varianssille** muuttujalle $$x$$ on:

$$
\mathrm{Var}(x) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
$$

**Kovarianssi** mittaa, kuinka kaksi muuttujaa muuttuvat yhdessä.

Kaava muuttujien $$x$$ ja $$y$$ **kovarianssille** on:

$$
\mathrm{Cov}(x, y) = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})
$$

**Kovarianssimatriisi** yleistää kovarianssin usealle muuttujalle. Aineistolle $$X$$, jossa on $$d$$ ominaisuutta ja $$n$$ havaintoa, kovarianssimatriisi $$\Sigma$$ on $$d \times d$$ -matriisi, jossa jokainen alkio $$\Sigma_{ij}$$ on ominaisuuksien $$i$$ ja $$j$$ välinen kovarianssi. Laskennassa käytetään nimittäjää $$n-1$$, jotta saadaan harhaton estimaatti.

import numpy as np

# Example data: 3 samples, 2 features
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])

# Center the data (subtract mean)
X_centered = X - np.mean(X, axis=0)

# Compute covariance matrix manually
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
print("Covariance matrix:\n", cov_matrix)

Yllä olevassa koodissa aineisto keskitetään manuaalisesti ja kovarianssimatriisi lasketaan matriisikertolaskun avulla. Tämä matriisi kuvaa, miten kukin ominaisuuspari vaihtelee yhdessä.

Mikä väite kuvaa oikein varianssin, kovarianssin ja kovarianssimatriisin välistä suhdetta?

Kattava keskitason kurssi, joka ohjaa oppijat PCA:n (Principal Component Analysis) motivaation, matemaattisten perusteiden ja käytännön toteutuksen läpi ulottuvuuksien vähentämiseksi data-analytiikassa ja koneoppimisessa.

Perehdy datan ulottuvuuksien vähentämisen taustalla vaikuttaviin motiiveihin, haasteisiin ja hyötyihin koneoppimisessa ja data-analytiikassa.

Syvenny PCA:n taustalla oleviin matemaattisiin käsitteisiin, kuten varianssiin, kovarianssiin ja ominaisvektoreihin.

PCA:n soveltaminen todellisiin aineistoihin Pythonilla, tulosten tulkinta, selitetyn varianssin ja komponenttikuormien visualisointi sekä mallin suorituskyvyn vertailu ennen ja jälkeen PCA:n.

Varianssi, Kovarianssi ja Kovarianssimatriisi