Lære Statistiske Operationer | Matematik med NumPy

At udføre forskellige statistiske operationer på arrays er afgørende for dataanalyse og maskinlæring. NumPy tilbyder funktioner og metoder til at udføre dem effektivt.

Mål for central tendens

Mål for central tendens repræsenterer en central eller repræsentativ værdi inden for en sandsynlighedsfordeling. Oftest beregnes disse mål dog for et bestemt udvalg.

Her er de to vigtigste mål:

Gennemsnit: summen af alle værdier divideret med det samlede antal værdier;
Median: Den midterste værdi i et sorteret udvalg.

NumPy tilbyder funktionerne mean() og median() til at beregne henholdsvis gennemsnit og median:


              12345678
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the mean
sample_mean = np.mean(sample)
print(f'Sorted sample: {np.sort(sample)}')
# Calculating the median
sample_median = np.median(sample)
print(f'Mean: {sample_mean}, median: {sample_median}')

Vi har også vist det sorterede datasæt, så du tydeligt kan se medianen. Vores datasæt har et ulige antal elementer (7), så medianen er blot elementet ved indeks (n + 1) / 2 i det sorterede datasæt, hvor n er størrelsen på datasættet.

Bemærk

Når datasættet har et lige antal elementer, er medianen gennemsnittet af elementerne ved indeks n / 2 og n / 2 - 1 i det sorterede datasæt.


              1234
            
import numpy as np
sample = np.array([1, 2, 8, 10, 15, 20, 25, 30])
sample_median = np.median(sample)
print(f'Median: {sample_median}')

Vores stikprøve er allerede sorteret og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Derfor er medianen (10 + 15) / 2 = 12.5.

Spredningsmål

To spredningsmål er varians og standardafvigelse. Varians måler, hvor spredt dataene er. Det er lig med gennemsnittet af de kvadrerede afvigelser fra gennemsnittet for hver værdi.

Standardafvigelse er kvadratroden af variansen. Den angiver, hvor spredt dataene er, i samme enheder som dataene.

NumPy har funktionen var() til at beregne variansen for stikprøven og funktionen std() til at beregne standardafvigelsen for stikprøven:


              1234567
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the variance
sample_variance = np.var(sample)
# Calculating the standard deviation
sample_std = np.std(sample)
print(f'Variance: {sample_variance}, standard deviation: {sample_std}')

Beregninger i højdimensionelle arrays

Alle disse funktioner har en anden parameter axis. Dens standardværdi er None, hvilket betyder, at målingen beregnes på et fladet array (selv hvis det oprindelige array er 2D eller højere dimensionelt).

Du kan også angive den præcise akse, som målingen skal beregnes langs:


              12345678
            
import numpy as np
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
# Calculating the mean in a flattened array
print(np.mean(array_2d))
# Calculating the mean along axis 0
print(np.mean(array_2d, axis=0))
# Calculating the mean along axis 1
print(np.mean(array_2d, axis=1))

Billedet nedenfor viser strukturen af exam_scores arrayet, der bruges i opgaven:

Opgave

Swipe to start coding

Du analyserer arrayet exam_scores, et 2D-array med simulerede testresultater for 2 studerende (2 rækker) på tværs af 5 forskellige eksamener (5 kolonner).

Beregn gennemsnitsscoren for hver studerende ved at angive det andet nøgleordargument.
Beregn medianen af alle resultater.
Beregn variansen af alle resultater.
Beregn standardafvigelsen af alle resultater.

Løsning

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 3

single

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen