Lære Statistiske Operasjoner | Matematikk med NumPy

Å utføre ulike statistiske operasjoner på matriser er avgjørende for dataanalyse og maskinlæring. NumPy tilbyr funksjoner og metoder for å utføre disse effektivt.

Mål for sentraltendens

Mål for sentraltendens representerer en sentral eller representativ verdi innenfor en sannsynlighetsfordeling. Som oftest beregnes disse målene for et bestemt utvalg.

Her er de to viktigste målene:

Gjennomsnitt: summen av alle verdier delt på totalt antall verdier;
Median: Den midterste verdien i et sortert utvalg.

NumPy tilbyr funksjonene mean() og median() for å beregne henholdsvis gjennomsnitt og median:


              12345678
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the mean
sample_mean = np.mean(sample)
print(f'Sorted sample: {np.sort(sample)}')
# Calculating the median
sample_median = np.median(sample)
print(f'Mean: {sample_mean}, median: {sample_median}')

Vi har også vist det sorterte utvalget slik at du tydelig kan se medianen. Utvalget vårt har et oddetall antall elementer (7), så medianen er rett og slett elementet på indeks (n + 1) / 2 i det sorterte utvalget, der n er størrelsen på utvalget.

Merk

Når utvalget har et partall antall elementer, er medianen gjennomsnittet av elementene på indeks n / 2 og n / 2 - 1 i det sorterte utvalget.


              1234
            
import numpy as np
sample = np.array([1, 2, 8, 10, 15, 20, 25, 30])
sample_median = np.median(sample)
print(f'Median: {sample_median}')

Utvalget vårt er allerede sortert og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Medianen vår er derfor (10 + 15) / 2 = 12.5.

Spredningsmål

To spredningsmål er varians og standardavvik. Varians måler hvor spredt dataene er. Det tilsvarer gjennomsnittet av de kvadrerte avvikene fra gjennomsnittet.

Standardavvik er kvadratroten av variansen. Det gir et mål på hvor spredt dataene er i samme enhet som dataene.

NumPy har funksjonen var() for å beregne variansen til utvalget og funksjonen std() for å beregne standardavviket til utvalget:


              1234567
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the variance
sample_variance = np.var(sample)
# Calculating the standard deviation
sample_std = np.std(sample)
print(f'Variance: {sample_variance}, standard deviation: {sample_std}')

Beregninger i høyere-dimensjonale matriser

Alle disse funksjonene har en andre parameter axis. Standardverdien er None, noe som betyr at målingen vil bli beregnet langs en utflatet matrise (selv om den opprinnelige matrisen er 2D eller høyere dimensjonal).

Du kan også spesifisere den eksakte aksen det skal beregnes langs:


              12345678
            
import numpy as np
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
# Calculating the mean in a flattened array
print(np.mean(array_2d))
# Calculating the mean along axis 0
print(np.mean(array_2d, axis=0))
# Calculating the mean along axis 1
print(np.mean(array_2d, axis=1))

Bildet under viser strukturen til exam_scores-matrisen som brukes i oppgaven:

Oppgave

Swipe to start coding

Du analyserer exam_scores-arrayet, et 2D-array med simulerte prøveresultater for 2 studenter (2 rader) på tvers av 5 forskjellige prøver (5 kolonner).

Beregn gjennomsnittlig poengsum for hver student ved å angi det andre nøkkelargumentet.
Beregn medianen av alle poengsummer.
Beregn variansen av alle poengsummer.
Beregn standardavviket for alle poengsummer.

Løsning

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 3

single

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Sveip for å vise menyen